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计算 机 行业 正在 改变 我 们 的 社会 ， 正 如 物理 学 和 化 学 在 前 两 个 世 
纪 给 社会 融 来 的 巨大 改变 一 样 。 的 确 ， 数 字 技 术 儿 乎 影响 甚至 颠 履 了 
我 们 生活 的 方方面面 。 鉴 于 计算 机 行业 对 现代 社会 的 重要 性 ， 人 们 对 
让 这 一 切 成 为 可 能 的 基本 概念 却 知 之 甚 少 ， 这 显得 有 点 目 相 矛盾 。 对 
这 些 概念 的 研究 是 计算 机 科学 的 核心 ， 而 这 本 麦 考 密 克 的 新 书 则 古 疝 


大 众 展示 这 些 概念 的 少数 书籍 之 一 。 


人 们 较 少 视 计 算 机 科学 为 一 门 学 科 ， 其 中 一 个 原因 是 ， 高 中 极 少 
开设 计算 机 科学 这 门 课程 。 虽 然 人 们 通常 认为 要 强制 开设 物理 学 和 化 
学 基础 ， 但 作为 独立 学 科 的 计算 机 科学 ， 通 常 只 有 在 大 学 阶段 才 开 设 
此 课程 。 况 且 ， 学 校 讲授 的 “计算 机 ”或 “信息 与 通信 技术 ”知识 ， 通 篆 
只 征 略 高 于 使 用 软件 的 技能 训练 。 因 此 ， 学 生 们 认为 计算 机 学 科 枯燥 
也 并 不 意外 ; 而 他 们 在 娱乐 和 通信 上 使 用 计算 机 技术 的 天 然 热 情 ， 也 
被 创造 这 类 技术 缺乏 学 术 深 度 的 印象 所 减弱 。 这 些 问题 被 认为 是 导致 
过 去 10 年 大 学 计算 机 科学 专业 学 生 人 数 下 降 一 半 的 核心 原因 。 考 虑 到 
数字 技术 对 现代 社会 的 极度 重要 性 ， 让 人 们 重新 领略 计算 机 科学 的 奇 
妙 之 处 已 经 刻不容缓 。 


2008 年 ， 我 很 荣 邓 地 被 选 为 第 180 届 莫 国 星 家 学 院 圣 诞 讲 座 
(Royal Institution Christmas Lectures) 的 演讲 人 ， 该 讲座 由 迈克 尔 ' 法 
拉 第 (Michael Faraday) 于 1826 年 发 起 。2008 年 圣诞 讲座 的 主题 首次 
涉及 计算 机 科学 。 在 准备 这 些 讲 座 时 ， 我 花 了 很 多 时 间 来 思考 如 何 向 
大 众 解释 计算 机 科学 ， 却 发 现 满足 这 一 需求 的 资源 很 少 ， 几 乎 没有 关 
于 计算 机 科学 的 畅销 书 。 因 此 ， 我 特别 高 兴 能 看 到 老 考 密 克 的 这 本 新 
书 o 


麦 考 密友 在 面 问 大 众 介 绍 计算 机 科学 的 复杂 思想 上 做 得 非常 好 。 
这 其 中 许多 思想 极其 新 凑 ， 仅 从 这 点 上 来 看 ， 它 们 束 很 值得 关注。 举 
个 例子 : 电子 商务 的 爆炸 式 增长 之 所 以 成 为 可 能 ， 是 因为 具备 了 能 在 
互联 网 上 秘密 、 安 全 地 发 送 机 密 信 息 《如 信用 卡 卡号 ) 的 能 力 。 数 十 
年 来 ， 建 立 在 “开放 ”通道 上 的 保密 通信 被 认为 是 一 个 科学 难题 。 当 人 
们 发 现 解决 方法 时 ， 才 发 觉 保密 通信 极度 优雅 ， 而 麦 考 密 克 也 以 精确 
的 类 比 进行 了 解释 ， 无 须 读者 拥有 计算 机 科学 知识 。 这 些 优 点 使 这 本 
书 对 科普 读物 做 出 了 不 可 信和 量 的 页 献 ， 我 极力 推荐 本 书 。 
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(Love’s Labour’s Lost) 


《 爱 的 徒劳 》 


计算 机 科学 中 的 伟大 思想 是 如 何 诞生 的 ? 以 下 避 选 部 分 思想 进行 


介绍 : 


。20 世 纪 30 年 代 ， 在 第 一 台数 字 计 算 机 发 明 以 前 ， 一 位 英国 天 
才 开 创 了 计算 机 科学 领域 。 之 后 ， 这 位 天 才 继 续 证 明 ， 不 管 未 来 
建造 的 计算 机 运行 多 快 、 功 能 多 强大 、 设 计 得 多 好 ， 仍 旧 有 一 些 
问题 是 计算 机 不 能 解决 的 。 

。1948 年 ， 一 位 供职 于 电话 公司 的 科学 家 发 表 了 一 篇 论文 ， 开 
创 了 信息 理论 领域 。 这 位 科学 家 的 工作 让 计算 机 能 以 完美 的 精确 
度 传 输 信息 ， 即 便 大 部 分 数据 都 因为 被 干扰 而 破坏 。 

。1956 年 ， 一 群 学 者 在 达 特 茅 斯 举行 会 议 。 这 次 会 议 的 目标 很 
清晰 ， 也 很 大 胆 ， 那 就 是 开创 人 工 智能 领域 。 在 取得 了 许多 重大 
成 功 以 及 经 历 了 无 数 失 望 之 后 ， 我 们 仍 期 竺 出现 一 个 真正 的 智能 
计算 机 程序 。 

。1969 年 ，IBM 公 司 的 一 名 研究 人 员 发 明了 一 种 将 信息 组 织 进 
数据 库 中 的 先进 方法 。 目 前 ， 绝 大 多 数 在 线 交 易 都 使 用 该 技术 存 
储 及 检索 信息 。 

"1974 年 ， 英 国政 府 秘密 通信 实验 室 的 研究 人 员 发 明了 一 种 让 
计算 机 安全 通信 的 方法 ， 即 另 一 台 计 算 机 可 以 查看 在 计算 机 之 间 
交换 的 所 有 信息 。 这 些 研究 人 员 为 政府 保密 所 限 一 一 不 过 幸运 的 


征 ， 三 名 美国 专家 独立 开发 并 拓展 了 这 项 重大 发 明 ， 为 互联 网 上 
所 有 的 安全 通信 打下 了 基础 。 

“1996 年 ， 两 名 斯 坦 福 大 学 博士 生 决定 联手 搭建 一 个 互联 网 搜 
索引 警 。 几 年 后 ， 他 们 创办 了 谷歌 公司 一 一 互联 网 时 代 的 第 一 个 
Ss 


在 我 们 享受 21 世 纪 技 术 惊 人 增长 的 同时 ， 使 用 计算 机 设备 一 一 不 
管 是 现 有 最 强大 的 一 组 机 右 还 是 最 新 、 最 时 尚 的 手持 设备 一 一 都 不 可 
避免 地 要 依赖 计算 机 科学 的 基础 思想 ， 而 这 些 思 想 都 诞生 于 20 世 纪 。 
想 一 想 : 你 今天 做 过 什么 令 人 印象 深刻 的 事情 吗 ? 好 吧 ， 这 个 问题 的 
答案 取决 于 你 怎么 看 。 也 许 你 搜索 了 包含 数 十 亿 份 文 档 的 资料 库 ， 从 
中 选 出 两 到 三 份 与 你 的 需求 最 相关 的 文档 ?即便 有 能 够 影响 所 有 电子 
设备 的 电磁 干扰 ， 存 储 或 传输 了 数 百 万 条 信息 ， 也 没 犯 一 点 错误 ? 你 
是 否 成 功 地 完成 了 一 次 在 线 交 易 ， 即 便 同 时 有 成 和 于 上 万 名 消费 者 在 访 
问 同一 个 服务 万? 你 是 否 在 能 够 被 其 他 数 十 台 计 算 机 嘿 探 到 的 线路 中 
传输 了 一 些 机 密 信 息 (比如 信用 卡 卡 号 ) ? 你 是 否 运 用 过 压缩 的 魔 
力 ， 将 数 兆 的 照片 压缩 成 更 易于 管理 的 大 小 ， 以 便 在 电子 邮件 中 发 
送 ? 你 是 否 在 手持 设备 上 触发 了 人 工 智能 ， 目 动 纠 正 你 在 手持 设备 的 
小 巧 键盘 上 输入 的 内 容 ? 


这 些 令 人 印象 深刻 的 壮举 都 依赖 于 之 前 提 到 的 伟大 发 现 。 然 而 ， 
绝 大 多 数 计算 机 用 户 每 天 都 会 多 次 运用 这 些 独创 想法 ， 却 从 没有 意识 


到 ! 本 书 站 在 面向 大 从 解释 这 些 概念 一 一 我 们 每 天 使 用 的 计算 机 科学 
的 伟大 思想 。 在 解释 每 个 概念 时 ， 我 都 假设 读者 不 了 解 任何 计算 机 科 
学 的 任何 知识 。 


算法 : 指 尖 精灵 的 构件 


到 目前 为 止 , 我 一 直 在 谈 计 算 机 科学 的 伟大 “思想 ”"”， 但 计算 机 科 
学 家 们 将 许多 重要 思想 形容 为 “算法 ”。 那么 思想 和 算法 之 间 有 什么 区 
别 呢 ? 究竟 什么 是 算法 ? 这 一 问题 最 简单 的 答案 是 ， 算 法 是 一 张 精 确 
的 处 方 ， 按 顺序 详细 列 出 了 解决 一 个 问题 所 需要 的 具体 步骤 。 我 们 小 
时 候 在 学 校 学 到 的 一 种 算法 就 是 很 好 的 例子 ， 将 两 个 大 数字 相 加 的 算 
法 。 如 下 例 所 示 。 这 个 算法 涉及 一 连 串 步 台 ， 开 始 的 步 又 如 下 : “前 
先 ， 将 两 个 数 的 最 末 位 数 相 加 ， 写 下 结 采 的 最 末 位 数 ， 将 剩 下 的 数 放 
到 左 侧 的 下 一 栏 ， 接 着， 将 下 一 栏 的 数 相 加 ， 再 将 除 结果 末 位 数 之 外 
的 数字 和 前 一 栏 余 下 的 数 相 加 .…...”。 依 此 类 推 。 
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将 两 个 数字 相 加 的 算法 的 前 两 步 。 


请 注意 算法 步骤 近乎 机 械 化 的 感觉 。 事 实 上 ， 这 有 是 算法 的 关键 特 
点 之 一 : 每 一 步 都 必须 绝对 精确 ， 没 有 任何 人 类 意图 或 推测 掺 杂 其 
中 。 这 样 ， 每 一 个 完全 机 械 化 的 步 又 才能 被 编 入 计算 机 。 算 法 的 另 一 
个 重要 特点 是 ， 不 管 输入 什么 ， 算 法 总 能 运行 。 我 们 在 学 校 学 到 的 相 
加 算法 驶 拥有 这 一 特性 : 不 管 你 想 把 哪 两 个 数 相 加 ， 算 法 最 终 都 会 得 
出 正确 答案 。 比 如 ， 用 这 一 算法 将 两 个 长 达 1 000 位 的 数 相 加 ， 你 肯定 
能 得 到 答案 ， 尽 管 这 需要 相当 长 的 时 间 。 


对 于 把 算法 定义 为 一 张 精 确 、 机 械 化 的 处 方 的 说 法 ， 你 也 许 会 略 
感 好 奇 。 这 张 处 方 究竟 要 有 多 精确 ? 要 进行 哪些 基本 操作 ? 比如 ， 在 
上 面 的 相 加 算法 中 ， 简 单 地 说 一 名 “把 两 个 数 相 加 ”是 不 是 就 行 了 ? 还 
是 说 我 们 要 在 加 法 表 上 列 出 所 有 个 位 数字 ? 这 些 细节 看 起 来 也 许 有 点 
乏味 ， 甚 至 会 显得 有 点 学 究 气 ， 但 其 实 离 真 相 不 远 了 : 这 些 问题 的 真 
正 答案 正 处 于 计算 机 科学 的 核心 ， 并 且 也 和 哲学 、 物 理学 、 神 经 科学 
以 及 遗传 学 有 联系 。 有 关 算 法 完 竟 是 什么 的 深层 问题 都 归结 于 一 个 前 
提 一 一 也 就 是 众所周知 的 印 奇 一 图 灵 论 题 (Church-Turing Thesis) 
我 们 将 在 第 十 章 重 温 这 些 问题 ， 届 时 我 们 还 将 讨论 计算 的 理论 极限 ， 
以 及 印 奇 一 图 灵 论 题 的 一 些 方面 。 同 时 ， 将 算法 比 作 一 张 非 常 精 确 的 
处 方 这 一 非 正式 概念 效果 会 非常 好 。 


现在 我 们 知道 了 算法 是 什么 ， 但 算法 和 计算 机 有 什么 联系 呢 ? 天 
键 在 于 ， 计 算 机 需要 用 非常 精确 的 指令 编程 。 因 此 ， 在 能 让 计算 机 为 
我 们 解决 某 个 特定 问题 之 前 ， 我 们 需要 为 那个 问题 开发 一 个 算法 。 在 
数学 和 物理 学 等 其 他 学 科 中 ， 重 要 的 结 末 通 间 是 由 一 个 方程 式 获得 
的 。 (著名 的 例子 包括 勾 股 定理 82+b?=c2， 或 爱 因 斯 坦 的 质量 守恒 定理 
E=mc*。) 相反 ， 计 算 机 科学 的 伟大 思想 通常 是 形容 如 何 解 决 一 个 问 
题 一 一 当然 ， 是 使 用 一 种 算法 。 因 此 ， 本 书 的 主要 目的 是 ， 解 释 让 计 
算 机 成 为 你 的 个 人 精灵 的 东西 一 一 计算 机 每 天 使 用 的 伟大 算法 。 


一 个 伟大 的 算法 由 什么 构成 ? 


这 会 引出 一 个 刁 外 的 问题 : 什么 才 是 真正 伟大 的 “算法 ”? 潜在 的 
候选 算法 清单 相当 大 ， 但 我 用 几 条 基本 标准 缩减 了 用 于 本 书 的 候选 算 
法 清单 。 第 一 条 ， 也 是 最 重要 的 一 条 标准 是 ， 伟 大 的 算法 要 被 普通 计 
算 机 用 户 每 天 用 到 。 第 二 条 重要 的 标准 是 ， 伟 大 的 算法 应 该 能 处 理 具 
体 的 现实 问题 ， 如 压缩 一 个 特定 文件 或 通过 一 个 噪声 链接 精确 地 传输 
文件 。 对 于 已 经 了 解 部 分 计算 机 科学 的 读者 而 言 ， 下 面 的 文字 框 解释 
前 面 两 大 标准 的 部 分 后 果 。 


第 一 条 标准 一 一 要 被 普通 计算 机 用 户 每 天 用 到 一 一 排除 了 主 
要 由 计算 机 专业 人 士 使 用 的 算法 ， 如 编译 器 和 程序 验证 技术 。 第 


二 条 标准 一 一 针对 某 个 特定 问题 的 具体 程序 一 一 排除 了 许多 作为 
计算 机 科学 本 科 课 程 核 心 内 容 的 伟大 算法 ， 如 排序 算法 (快速 排 
序 ) 、 图 形 算法 ( 迪 杰 斯 特 拉 最 短路 径 算 法 ) 、 数 据 结 构 〈 哈 硕 
表 ) 。 这 些 算法 的 伟大 性 好 庸 置疑 ， 而 且 很 轻易 地 就 满足 了 第 一 
条 标准 ， 因 为 普通 用 户 使 用 的 绝 大 多 数 应 用 程序 都 会 反复 应 用 这 
些 算 法 。 但 这 些 算法 太 通 用 了 : 它们 能 用 于 解决 众多 问题 。 在 本 
书 中 ， 我 决定 要 专注 于 解决 特定 问题 的 算法 ， 因 为 对 于 普通 计算 
机 用 户 而 言 ， 这 些 算 法 能 让 他 们 拥有 更 清晰 的 动机 。 


一 些 和 本 书 选取 算法 有 关 的 额外 细节 。 本 书 读者 无 须 具 备 计 算 机 科学 的 任何 知识 。 但 如 果 读者 


局 


具备 计算 机 科学 背景 知识 ， 这 个 文字 框 会 解释 为 何 这 类 读者 之 前 偏好 的 许多 内 容 没 有 出 现在 本 


书 中 。 


第 三 个 标准 是 ， 算 法 主要 和 计算 机 科学 理论 相关 。 这 排除 了 主要 
和 计算 机 硬件 一 一 如 CPU、 监 视 右 以 及 网 络 一 一 有 关 的 技术 。 这 条 标 
准 也 减轻 了 对 基础 设施 一 一 如 互联 网 一 一 设计 的 重视 。 为 什么 我 要 着 
重 于 计算 机 科学 理论 ? 部 分 原因 是 由 于 公众 对 计算 机 科学 认 知 的 不 平 
衡 有 一 种 广泛 的 观点 认为 ， 计 算 机 科学 基本 上 就 是 编程 (如 “ 软 
件 ”) 和 设备 设计 (如 “硬件 *”) 。 事 实 上 ， 最 优美 的 计算 机 科学 思想 中 
有 许多 是 十 分 抽象 的 ， 并 不 属于 以 上 任意 一 类 。 我 硕 望 通过 着 重 于 这 
些 理论 思想 ， 让 更 多 人 将 计算 机 科学 的 本 质 作 为 一 门 知 识 学 科 来 理 
解 。 


你 也 许 已 经 注意 到 了 ， 我 列 出 的 标准 可 能 会 遗漏 一 些 伟大 的 算 
法 ,但 却 从 一 开始 就 避免 了 定义 伟大 这 个 极其 矿 烦 的 问题 。 针 对 这 一 
问题 ， 我 依赖 于 目 己 的 直觉 。 在 本 书 中 说 明 的 每 一 个 算法 中 ， 其 核心 
都 是 一 个 让 整 件 事情 奏效 的 精巧 把 戏 。 对 我 而 言 ， 当 这 个 把 戏 显 露出 
来 时 ， 那 个 “惊叹 ?时 刻 ， 会 让 解释 这 些 算法 成 为 令 人 和 愉悦 的 经 历 ， 我 
希望 你 也 能 有 此 感受 。 因 为 我 会 用 到 “把 戏 ” (trick) 这 个 词 很 多 次 ， 需 
要 指出 的 是 ， 我 并 非 指 那些 卑劣 或 允 人 的 把 戏 一 一 那 种 孩子 可 能 会 
在 弟弟 或 妹妹 身上 的 把 戏 。 相 反 ， 本 书 中 的 把 戏 类 似 于 交易 诀窍 或 麻 
术 : 为 达成 目标 而 采用 的 聪明 技巧 ， 否 则 目标 很 难 或 不 可 能 达成 。 


因此 ， 根 据 直 觉 ， 我 选 出 了 自 认 为 是 计算 机 科学 世界 中 最 精巧 、 
最 神奇 的 把 戏 。 在 英国 数学 家 高 德 菲 : 哈 罗 德 .哈代 (G. H. Hardy) 的 
《一 个 数学 家 的 辩 白 》 (A Mathematician's Apology) 中 ， 作 者 试 
图 向 公众 解释 数学 家 从 事 数学 的 原因 :“ 美 是 第 一 道 测试 : 丑陋 的 数学 
在 这 个 世界 中 无 永存 之 地 。” 这 道 美 的 测试 也 适用 于 计算 机 科学 中 综合 
的 理论 思想 。 因 此 ， 选 取 在 本 书 中 出 现 的 算法 的 最 后 一 条 标准 ， 就 是 
哈代 的 一 一 也 许可 以 这 么 称呼 一 一 美的 测试 : 希望 我 至 少 能 成 功 地 向 
读者 展示 部 分 美 一 一 我 在 每 个 算法 中 感觉 到 的 美 。 


接 下 来 谈 谈 我 选择 展示 的 这 些 算法 。 搜 索引 擎 的 巨大 影响 ， 也 许 
征 算法 技术 影响 所 有 计算 机 用 户 最 明显 的 例子 ， 我 自然 也 将 部 分 互联 
网 搜索 的 核心 算法 收入 了 本 书 中 。 第 二 章 描 述 了 搜索 引擎 如 何 使 用 索 


引 寻 找 与 请 求 的 文件 ， 而 第 三 章 则 解释 了 网 页 排名 (PageRank) 算法 
一 一 谷歌 公司 为 保证 匹配 度 最 高 的 文件 出 现在 搜索 结果 列表 顶部 的 原 
始 算法 。 


即便 我 们 不 经 常 想 这 件 事情 ， 绝 大 多 数 人 也 能 意识 得 到 ， 为 提供 
出 人 意料 的 强大 搜索 结果 ， 搜 索引 警 使 用 着 一 些 深 和 莹 的 计算 机 科学 思 
想 。 相 反 ， 其 他 一 些 伟大 的 算法 也 经 常 被 用 到 ， 但 计算 机 用 户 对 此 其 
至 都 没有 意识 到 。 第 四 章 描述 的 公 钥 加 密 (public key cryptography) 就 
是 这 样 一 种 算法 。 用 户 每 次 访问 一 个 安全 网 站 (地 址 以 https 而 非 http 开 
头 ) ， 用 户 都 会 用 到 公 和 钥 加 密 的 一 个 方面 一 一 也 就 是 众所周知 的 密 钥 
来 展开 一 段 安全 对 话 。 第 四 章 解释 了 密 钥 交 


交换 (key exchange) 
换 过 程 的 实现 原理 。 


第 五 章 的 主题 是 纠 错 码 (error correcting codes) ， 这 是 我 们 经 常 使 
用 但 却 没有 意识 到 的 另 一 类 算法 。 事 实 上 ， 纠 错 码 极 有 可 能 是 有 史 以 
来 唯一 一 个 使 用 次 数 最 频繁 的 伟大 算法 。 纠 错 码 可 以 让 计算 机 识别 并 
纠正 在 储存 或 传输 数据 中 出 现 的 错误 ， 而 不 必 依 靠 备份 或 再 次 传输 。 
纠 错 码 无 处 不 在 :它们 被 用 于 所 有 硬盘 驱动 器 、 众 多 网 络 传输 、CD 和 
DVD， 甚 至 还 存在 于 一 些 计算 机 的 内 存 。 不 过 ， 纠 错 码 的 能 力 太 强 
了 ， 以 至 于 我 们 意识 不 到 它们 存在 。 


第 六 草 稍 微 有 点 特殊 ， 介 绍 了 图 形 识别 算法 (pattern recognition 
algorithm) 。 图 形 识别 算法 也 能 进入 伟大 的 计算 机 科学 思想 榜 单 ， 但 


却 违背 了 第 一 条 标准 : 要 被 普通 计算 机 用 户 每 天 用 到 。 图 形 识别 属于 
计算 机 识别 高 度 可 变 信息 一 一 如 笔迹 、 讲 话 和 人 脸 一 一 的 技术 。 事 实 
上 上 ， 在 21 世 纪 的 第 一 个 十 年 ， 绝 大 多 数 日 常 计算 并 没有 用 到 这 些 技 
术 。 但 在 2011 年 ， 图 形 识别 的 重要 性 急剧 增 大 : 配备 小 型 屏幕 键盘 的 
移动 设备 需要 目 动 纠 错 ， 平 板 设备 必须 识别 手写 输入 ， 而 且 所 有 这 些 
设备 〈 特 别 是 智能 手机 ) 越 来 越 趋向 于 语音 操作 。 一 些 网 站 甚至 使 用 
图 形 识别 来 决定 同 用 户 展 示 哪 种 广告 。 男 外 ， 我 对 图 形 识 别 也 有 偏 
好 ， 因 为 它 是 我 的 研究 领域 。 因此， 第 六 章 描述 了 3 种 最 有 趣 、 最 成 功 
的 图 形 识别 技术 : 最 近邻 分 类 器 (nearest-neighbor classifier) 、 决 策 树 
(decision tree) 以 及 神经 网 络 (neural network) 。 


第 七 章 讨论 了 压缩 算法 。 压 缩 算法 组 成 了 另 一 组 使 计算 机 变 成 我 
们 指 尖 精灵 的 伟大 思想 。 计 算 机 用 户 的 确 会 时 不 时 地 直接 进行 压缩 ， 
也 许 是 为 了 市 省 磁盘 空间 ， 也 许 是 为 了 缩减 照片 容量 ， 以 便 用 电子 邮 
件 寄 出 。 不 过 在 私 克 下 ， 压 缩 使 用 的 频率 要 更 高 ， 我 们 根本 没有 意 
到 ， 我 们 的 下 载 或 上 传 也 可 以 通过 压缩 以 万 省 市 宽 ， 而 数据 中 心 通 毅 


识 


会 压缩 消费 者 的 数据 以 降低 成 本 。 电 子 邮件 提供 商 提 供给 你 的 5 GB 空 
间 ， 经 压缩 后 很 有 可 能 只 占据 电子 邮件 提供 商 5 GB 空间 的 很 小 一 部 


分 。 


第 八 章 讲 到 了 数据 库 中 运用 的 一 些 基础 算法 。 这 一 章 侧重 为 实现 
一 致 性 一 一 指 一 个 数据 库 中 的 关系 不 互相 冲突 一 一 而 采用 的 聪明 技 


巧 。 没 有 这 些 精 巧 的 技术 ， 我 们 的 绝 大 部 分 在 线 生 活 (包括 网 络 购 物 
以 及 通过 Facebook 之 类 的 社交 网 站 进行 互动 ) 就 会 消亡 于 众多 计算 机 
背 误 中 。 这 一 章 解 释 了 一 致 性 真正 的 问题 是 什么 ， 以 及 计算 机 科学 家 
征 如 何 解决 这 一 问题 的 。 前 提 是 不 牺牲 我 们 所 期 望 的 在 线 系统 拥有 的 
高 效 性 。 


在 第 九 章 ， 我 们 会 了 解 理论 计算 机 科学 无 可 争议 的 瑰宝 之 一 : 数 
了 仿生 人 有 之 人 用 妆 于 形式 全 是 人 份 电子 天 信和 俱 开 不 可 能 过 你 
也 许 会 想 ， 这 种 签名 必须 由 数字 信息 组 成 ， 而 任何 想 要 伪造 签名 的 人 
都 可 以 到 不 费力 地 找 贝 这 些 信息 。 这 一 怪 论 的 解决 方案 ， 束 古 计 算 机 
科学 取得 的 最 令 人 瞩目 的 成 束 之 一 。 


第 十 章 采取 了 截然 不 同 的 视角 : 与 其 描述 一 个 已 经 存在 的 伟大 算 
法 ,我们 不 如 去 了 解 一 个 假如 存在 则 必然 会 伟大 的 算法 。 不 过 我 们 会 
震 怀 地 发 现 ， 这 个 特别 伟大 的 算法 不 可 能 存在 。 这 表明 计算 机 解决 问 
题 的 能 力 存 在 一 些 绝对 极限 ， 而 我 们 将 简单 地 从 哲学 和 生物 学 角度 探 
讨 这 一 结 东 的 应 用 。 


第 十 一 章 我 们 会 总 结 伟大 算法 的 一 些 共性 ， 人 花 些 时 间 畅 想 未 来 会 
怎样 。 会 有 更 多 伟大 算法 出 现 吗 ?或 者 说 ， 我 们 已 经 发 现 了 所 有 的 伟 
大 算法 ? 


在 此 ， 不 得 不 提前 说 一 下 本 书 的 风格 。 任 何 科 普 作 品 都 必须 清楚 
地 告知 来 源 ， 但 引用 会 破坏 文本 的 流畅 性 ， 并 让 读者 产生 学 术 的 感 
觉 。 由 于 可 读 性 和 易 读 性 是 本 书 的 首要 目标 ， 所 以 本 书 正文 不 会 出 现 
引用 。 不 过 ， 我 清楚 地 记录 了 所 有 来 源 ， 并 在 本 书 末 尾 的 “来 源 和 延伸 
阅读 ”板块 中 列 出 ， 并 时 不 时 附 上 拓展 评论 。 这 个 板块 还 列 出 了 一 些 额 
外 材料 ， 以 便 感 兴趣 的 读者 能 去 寻找 更 多 和 计算 机 科学 中 伟大 算法 有 
天 的 东西 。 


既然 提前 说 了 本 书 的 风格 ， 我 还 要 谈 谈 本 书 书 名 中 采取 的 少量 诗 
化 。 本 书 无 颖 是 车 命 性 的 ， 但 真 的 有 九 种 算法 吗 ? 这 一 说 法 值得 探 
讨 ， 因 为 要 取决 于 有 多 少 算法 被 算 作 单独 算法 。 让 我 们 来 算 下 “ 九 ? 是 
皇 么 来 的 。 除 了 前 言 和 结论 两 章 外 ， 本 书 还 有 九 章 ， 每 一 章 都 介绍 了 
对 一 种 计算 任务 产生 章 命 性 影响 的 算法 ， 例 如 加 密 、 压 缩 、 图 形 识 
别 。 因 此 ， 书 名 中 的 “ 九 大 算法 ”实际 上 指 的 古 处 理 这 九 种 任务 的 九 类 
算法 。 


为 什么 我 们 要 关注 这 些 伟大 的 算法 ? 


希 户 对 这 些 迷 人 思想 的 快速 总 结 能 让 你 淘 鹿 深入 了 解 它 们 的 运行 
方式 。 不 过 ， 也 许 你 仍然 在 思考 : 本 书 的 终极 目标 是 什么 ? 让 我 简短 
地 说 下 本 书 的 真正 目的 。 这 本 书 绝 不 是 一 本 问答 式 操作 手册 。 在 读 完 
本 书后 ， 你 不 会 成 为 计算 机 安全 方面 的 专家 ， 也 不 会 成 为 人 工 智能 或 


其 他 领域 的 专家 。 你 也 许 能 学 到 一 些 有 用 的 扩 能 ， 这 倒是 真 的 。 比 
如 : 你 会 对 如 何 检查 “安全 ”网 站 凭证 以 及 “已 签名 ”软件 包 了 解 更 多 ; 你 
能 针对 不 同 任务 在 有 损 和 无 损 压 缩 之 间 做 出 明智 选择 ;而 且 通过 理解 
搜索 引 敬 索引 和 排名 技术 的 某 些 方面 ， 你 能 更 高 效 地 使 用 搜索 引 苟 。 


在 读 完 本 书后 ， 你 不 会 成 为 一 名 更 加 熟练 的 计算 机 用 户 。 但 你 会 
更 加 珍视 每 天 在 所 有 计算 设备 上 不 停 使 用 的 思想 的 美 。 


为 什么 这 是 件 好 事 ? 我 用 类 比 的 方式 来 说 明 。 我 肯定 不 是 一 位 天 
文学 专家 一 一 事实 上 ， 我 在 这 个 项 目 上 相当 无 知 ， 我 想 知 道 更 多 。 但 
每 当 我 注视 夜空 ， 我 知道 的 少量 天 文学 知识 增强 了 我 对 这 一 经 验 的 享 
受 。 有 时 ， 我 对 目 己 看 到 事物 的 理解 ， 让 我 产生 了 一 种 满足 和 悚 奇 的 
感觉 。 硕 望 在 读 完 本 书后 ， 你 在 使 用 计算 机 时 也 能 经 党 获得 同样 的 满 
足 和 惊奇 之 感 ， 这 也 是 我 急切 的 希望 。 你 将 真正 珍视 我 们 时 代 最 各 
见 、 最 神秘 的 墨盒 子 : 你 的 个 人 电脑 ， 你 指 尖 的 精灵 。 


第 二 章 
搜索 引擎 索引 
一 在 世界 上 最 大 的 草 翅 中 寻 针 


哈 区 ， 在 咱 俩 站 着 的 地 方 的 下 面 ， 你 拿 一 根 钓 鱼 竿 就 可 以 触 到 我 钙 出 来 的 那个 洞 。 看 看 你 能 


不 能 找到 。 


一 一 马克 ' 吐 温 ， 


《汤姆 . 索 亚 历险 记 》 (Tom Sawyer) 


搜索 引擎 对 我 们 的 生活 产生 了 深远 影响 。 绝 大 多 数 人 每 天 部 进行 
多 次 搜索 查询 ， 但 我 们 极 少 会 停 下 来 思考 这 个 令 人 惊叹 的 工具 是 如 何 
奏效 的 。 搜 索引 擎 提供 的 海量 信息 以 及 搜索 结果 的 速度 与 质量 变 得 如 
此 平 第 ， 如 琳 我 们 搜索 的 问题 没有 在 儿 秒 内 得 到 回答 ， 我 们 就 会 困 
惑 。 我 们 倾 同 于 起 记 ， 每 一 个 成 功 的 搜索 引 敬 都 是 从 世界 上 最 大 的 草 
坪 一 一 万 维 网 一 一 寻 针 。 


事实 上 ， 搜 索引 擎 提供 的 超级 服务 ， 不 仅仅 是 针对 搜索 抛 出 一 大 
堆 伦 哨 技 术 的 结 霖 。 的 确 ， 每 个 大 型 搜索 引擎 公司 部 运 膏 大 一 个 由 无 
数 数据 中 心 组 成 的 国际 网 络 ， 其 中 包括 数 以 千 计 的 服务 右 计 算 机 先 
进 的 网 络 设备 。 但 没有 聪明 的 算法 来 组 织 和 检索 我 们 请 求 的 信息 ， 所 
有 这 些 硬 件 都 会 变 得 襄 无 用 处 。 因 此 ， 在 这 一 章 和 下 一 章 ， 我 们 将 探 
完 这 样 一 些 算法 瑰 至 一 一 每 次 在 进行 网 络 搜索 时 ， 我 们 都 会 用 到 这 些 
算法 。 我 们 很 快 束 会 了 解 到 ， 搜 索引 警 的 两 大 主要 任务 整 是 匹配 
(matching) 和 排名 (ranking) 。 这 一 章 将 讲述 一 种 聪明 的 匹配 技术 : 
元 词 把 戏 (metaword trick) 。 在 下 一 章 ， 我 们 将 转 而 讨论 排名 任务 ， 
审视 谷歌 公司 著名 的 网 页 排名 算法 。 


匹配 和 排名 


当 你 发 起 一 次 网 络 搜索 查询 时 会 发 生 什 么 ? 以 这 样 一 种 高 屋 建 领 
的 视角 开始 会 很 有 帮助 。 我 已 经 说 过 ， 搜 索 有 两 个 主要 阶段 : 匹配 和 
排名 。 在 实际 中 ， 搜 索引 擎 将 匹配 和 排名 组 合成 一 个 流程 以 实现 一 至 
性 。 但 这 两 个 阶段 在 概念 上 是 独立 的 ， 因 此 我 们 会 假设 在 排名 开始 
前 ， 匹 配 已 经 完成 。 上 图 就 给 出 了 一 个 例子 ， 图 中 查询 的 是 “London 
bus timetable” (伦敦 公共 汽车 时 刻 表 ) ， 而 匹配 阶段 则 回答 “哪个 网 页 
与 我 的 查询 匹配 ”这 个 问题 一 一 在 这 个 例子 中 就 是 所 有 提 到 “London bus 
timetable” 的 网 页 。 


匹配 后 的 网 页 排名 后 的 网 页 


络 搜索 的 两 个 阶段 : 匹配 和 排名 。 在 第 一 阶段 ( 匹 


济 


果 必 须 按照 相关 度 在 第 二 阶段 (排名 ) 进行 排序 。 


果 ， 这 些 


但 现实 搜索 引擎 中 的 许多 查询 都 有 数 百 、 数 千 刀 至 数 百 万 个 “ 命 
中 ”。 而 搜索 引擎 用 户 通 香 只 喜欢 查看 几 个 结 订 ， 最 多 5 个 或 10 个 。 
此 ， 搜 索引 擎 必须 从 大 量 命中 里 挑 出 最 好 的 儿 个 。 一 个 好 的 搜索 引擎 
不 仅仅 会 挑 出 最 好 的 几 个 命中 ， 而 且 会 以 最 有 用 的 顺序 显示 它们 一 一 
最 匹配 的 页 面 排 在 第 一 ， 然 后 是 匹配 度 排名 第 二 的 页 面 ， 依 此 类 推 。 


以 正确 顺序 挑选 出 最 好 的 几 个 命中 被 称 为 “排名 ”。 排 名 是 关键 的 
第 二 个 阶段 ， 紧 随 最 开始 的 匹配 阶段 。 在 搜索 行业 的 残酷 世界 中 ， 搜 
索引 警 的 生死 由 其 排名 系统 的 质量 决定 。2002 年 ， 美 国 前 三 大 搜索 引 
区 的 市 场 份额 基本 相当 ， 谷 歌 、 雅 虎 和 MSN 在 美国 的 市 场 份额 都 在 
30% 以 下 。[MSN 随 后 被 重新 包装 成 Live Search， 之 后 又 被 命名 
为 必 应 (Bing) 。] 之 后 几 年 ， 谷 歌 的 市 场 份额 迅速 扩大 ， 同 时 将 雅 
虎 和 MSN 的 市 场 份 额 打 压 到 了 20% 以 下 。 人 们 普 遇 认为 ， 谷 歌 迅 速 上 
升 为 搜索 行业 冠军 是 得 益 于 其 排名 算法 。 因 此 ， 毫 不 夸张 地 说 ， 搜 索 
引擎 的 生死 由 其 排名 系统 的 质量 决定 。 不 过 ， 正 如 我 已 经 提 到 的 ， 我 
们 将 在 下 一 章 探讨 排名 算法 。 至 于 现在 ， 让 我 们 专注 于 匹配 阶段 吧 。 


AltaVista: 第 一 个 互联 网 级 别 的 匹配 算法 


搜索 引擎 匹配 算法 的 故事 从 哪里 开始 ? 一 个 很 显然 却 错误 的 回答 
会 说 从 谷歌 一 一 21 世 纪 初 期 最 伟大 的 拉 术 成 功 故 事 一 一 开始 。 事 实 


上 ， 谷 歌 最 初 只 是 两 位 斯 坦 福 大 学 研究 生 的 博士 学 位 项 目 ， 这 个 故事 
不 仅 温暖 人 心 ， 而 且 令 人 印象 深刻 。 拉 里 . 佩 奇 (Larry Page) 和 谢 尔 盖 
- 布 林 (Sergey Brin) 在 1998 年 组 装 了 一 堆 计算 机 硬件 来 运行 一 种 新 的 
搜索 引擎 。 不 到 10 年 ， 他 们 的 公司 成 为 了 互联 网 时 代 崛 起 的 最 伟大 的 
2 


不 过 ， 互 联网 搜索 的 想法 已 经 存在 很 多 年 了 。 最 早 的 商业 应 用 是 
Infoseek 和 Lycos (两 者 都 于 1994 年 推出 ) ， 以 及 于 1995 年 推出 搜索 引擎 
的 AltaVista。20 世 纪 90 年 代 中 期 的 几 年 中 ，AltaVista 是 搜索 引 敬 的 王 
者 。 当 时 我 还 是 一 名 计算 机 科学 研究 生 ， 我 清楚 地 记得 自己 惊叹 于 
AltaVista 搜 索 结 果 的 成 熟 度 。 有 史 以 来 第 一 次 ， 有 一 个 搜索 引擎 能 完全 
索引 互联 网 上 每 一 个 页 面 的 全 部 文本 。 更 可 贵 的 是 ， 甩 眼 间 就 能 返回 
结果 。 要 继续 理解 这 个 令 人 回味 的 技术 突破 ， 我 们 要 从 接触 一 个 古老 
的 〈 训 不 夸张 ) 概念 一 -索引 一 一 开始 。 


古老 的 索引 


索引 的 概念 是 所 有 搜索 引 敬 背后 最 基础 的 思想 。 但 索引 并 非 由 搜 
索引 擎 发 明 : 事实 上 ， 索 引 的 思想 几乎 和 书写 本 吴 一 样 古老 。 比 如 ， 
人 类 学 家 发 现 了 一 座 具有 五 干 年 历史 的 巴比伦 神 庙 图 书馆 ， 里 面 按 学 
科 对 枫 形 文字 泥 版 进行 了 分 类 。 因 此 ， 索 引 可 以 称 得 上 有 是 计算 机 科学 
中 最 古老 的 有 用 思想 。 


如 今 ,，“ 索 引 ” 这 个 词 通常 指 参 考 书 最 后 的 一 个 板块 。 你 可 能 想 要 
查看 的 所 有 概念 都 以 固定 顺序 (通常 是 按 字母 排序 ) 列 出 ， 每 一 个 概 
念 下 都 列 出 了 这 个 概念 出 现 的 位 置 (通常 是 页 码 ) 。 因 此 ， 一 本 和 动 
物 有 关 的 书 也 许 会 有 一 个 像 “cheetah 124，156” 的 索引 项 。 这 个 索引 项 
意味 着 “cheetah”( 猎 狗 ) 这 个 词 在 第 124 页 和 第 156 页 出 现 过 。 (让 你 
做 个 相当 有 趣 的 练习 ， 你 可 以 在 本 书 的 索引 中 查询 “index” 这 个 词 。 你 
应 该 可 以 找到 这 一 页 。) 


消 汪 在 热 了 上 。 | 人 | 狗 站 在 执 了 上 | | 狂 站 起 ， 狗 周 下 


一 个 假想 的 万 维 网 ， 由 编号 为 1、2 和 3 的 三 个 页 面 组 成 。 


| el 


while 3 


互联 网 搜索 引擎 的 索引 和 一 本 书 的 索引 有 着 相同 的 工作 原理 。 
书 “ 页 ?现在 成 了 万 维 网 上 的 网 页 ， 而 搜索 引擎 则 给 互联 网 上 的 每 个 网 
页 分 配 了 一 个 不 同 的 页 码 。 (是 的 ， 互 联网 上 虽然 有 很 多 网 页 一 一 最 
新 的 数据 显示 有 成 百 上 千 亿 个 一 一 但 计算 机 很 擅长 处 理 大 数字 。) 上 
图 给 出 了 一 个 会 让 整个 过 程 更 具体 的 例子 。 想 象 万 维 网 只 由 上 面 显示 
的 3 个 短 网 页 组 成 ， 它 们 分 别 分 配 到 了 页 码 1、2 和 3。 


> 


页 码 表 示 的 简单 索引 。 


计算 机 可 以 为 这 三 个 网 页 创建 一 个 索引 : 首先 要 为 出 现在 任 一 页 
面 上 的 所 有 单词 创建 一 个 列表 ， 然 后 按 字母 表 顺 序 整理 这 张 列 表 。 我 
们 可 以 将 结果 称 为 单词 表 (word list) 一 一 在 这 个 例子 中 是 “a、cat、 
dog、mat、on、sat、stood、the、while”。 然 后 计算 机 会 一 个 单词 一 个 
单词 地 搜 遍 所 有 页 面 。 计 算 机 会 标注 每 个 单词 所 在 的 页 码 ， 然 后 再 标 
注 单词 表 中 下 一 个 单词 的 位 置 。 最 终结 果 显 示 在 上 图 中 。 比 如 ， 你 可 
以 立即 看 到 单词 “cat*” 出 现在 第 1 页 和 第 3 页 ， 却 不 在 第 2 页 。 而 单 
词 “while” 只 出 现在 第 3 页 。 


通过 这 种 简单 方法 ， 搜 索引 擎 惑 已 经 能 回答 许多 简单 的 查询 。 比 
如 ， 假 设 你 输入 查询 词 “cat" ， 搜 索引 擎 能 很 快 踊 转 到 单词 表 中 
的 “cat* 项 。 《因为 字母 表 是 按 字母 排序 的 ， 计 算 机 能 很 快 找到 任何 
项 ， 就 像 我 们 可 以 很 快 找 到 词典 中 的 一 个 单词 一 样 。) 一 旦 计算 机 找 


到 “cat* 项 ， 搜 索引 擎 束 能 给 出 该 项 的 页 面 列表 一 一 在 这 个 例子 中 整 是 
第 1 页 和 第 3 页 。 现 代 搜 索引 擎 对 结果 的 组 织 很 合理 ， 只 摘 取 了 返回 页 
面 的 少许 片段 ， 不 过 ， 我 们 基本 上 会 名 上 略 这 样 的 细 市 ， 将 精力 集中 在 
搜索 引擎 如 何 知道 页 面 “ 符 合 "用 户 输入 的 查询 上 。 


再 举 另 一 个 非常 简单 的 例子 ， 让 我 们 来 检查 一 下 查询 “dog” 的 步 
又 。 在 这 个 例子 中 ， 搜 索引 警 很 快 会 找到 “dog” 项 ， 并 返回 页 码 2 和 3。 
如 果 查 询 多 个 单词 ， 如 “cat dog” 呢 ?这 表示 你 正在 寻找 同时 包含 单 
词 “cat* 和 “dog” 的 页 面 。 通 过 已 有 的 索引 ， 搜 索引 警 也 能 很 容易 查 到 结 
果 。 搜 索引 警 首 先 会 单独 查找 这 两 个 单词 ， 找 出 它们 分 别 在 哪些 页 面 
中 。 结 果 是 “cat” 在 第 1 页 和 第 3 页 , “dog” 在 第 2 页 和 第 3 页 。 之 后 ， 计 算 
机 能 快速 扫描 这 两 个 命中 列表 ， 寻 找 同 时 出 现在 两 个 列表 中 的 页 码 。 
在 这 个 例子 中 ， 第 1 页 和 第 2 页 被 排除 了 ， 但 第 3 页 同时 出 现在 两 个 列表 
中 ， 因 此 最 终 答案 束 是 第 3 页 上 的 一 次 单独 命中 。 与 之 极其 相似 的 一 个 
策略 也 适用 于 超过 两 个 单词 的 查询 。 比 如 ， 查 询 “cat the sat” 会 返回 第 1 
页 和 第 3 页 为 命中 ， 因 为 它们 是 “cat” (1, 3) 、“the”(1，2，3) 
和 “sat”(1，3) 这 个 列表 的 通用 元 素 。 


吕 目 前 来 看 ， 搭 建 一 个 搜索 引擎 听 起 来 相当 容易 。 最 简单 的 索引 
技术 似乎 运行 得 很 好 ， 即 便 对 多 词 查 询 也 是 如 此 。 不 痒 的 是 ， 这 种 简 
单方 法 完全 不 能 满足 现代 搜索 引擎 的 需要 。 出 现 这 种 情况 的 原因 有 几 
个 ， 不 过 现在 我 们 只 会 关注 其 中 之 一 : 如 何 做 短语 查询 。 短 语 查询 是 


指 寻 找 一 个 确切 短语 的 查询 ， 而 非 凑 巧 一 些 单 词 出 现在 页 面 中 的 某 些 
地 方 。 比 如 , “cat sat” 查 询 和 cat sat 查 询 的 意义 截然 不 同 。Uicat sat 查 询 
寻找 的 是 在 任何 位 置 包含 “cat"” 和 “sat” 两 个 单词 的 页 面 ， 不 考虑 顺序 ; 
而 “cat sat” 查 询 寻 找 的 是 包含 单词 “cat” 之 后 紧 跟 单词 “sat" 的 页 面 。 在 上 
面 那 个 由 三 个 网 页 组 成 的 简单 例子 中 ，cat sat 查 询 结果 命中 第 1 页 和 第 3 
页 ， 但 “cat sat" 查 询 只 返回 一 次 命中 ， 束 在 第 1 页 。 


一 个 搜索 引擎 如 何 才 能 有 效 地 进行 一 次 短语 查询 呢 ? 继续 说 “cat 
sat” 这 个 例子 。 第 一 步 和 平 第 的 多 词 查 询 cat sat 一 样 ， 从 单词 表 中 获取 
每 个 单词 出 现 的 网 页 列表 ， 在 这 个 例子 中 束 古 出 现在 第 1 页 和 第 3 页 
的 “cat”; “sat" 也 一 样 ， 出 现在 第 1 页 和 第 3 页 。 不 过 搜索 引擎 到 这 里 丈 
卡 住 了 。 搜 索引 擎 很 确切 地 知道 两 个 单词 同时 出 现在 页 面 1 和 页 面 3 
上 ， 但 没有 办 法 来 分 辨 这 些 单词 是 否 以 正确 的 顺序 紧 挨 着 彼此 出 现 。 
你 也 许 会 想 ， 搜 索引 擎 可 以 返回 查看 原 网 页 ， 看 这 个 短语 是 否 存 在 。 
这 的 确 古 个 可 能 的 解决 方案 ， 但 效率 却 非常 非常 低 。 这 需要 遍历 每 一 
个 可 能 包 舍 这 个 短语 的 网 页 的 全 部 内 容 ， 而 且 可 能 有 海量 这 样 的 网 
页 。 记 住 ， 我们 在 这 里 打交道 的 是 一 个 只 由 三 个 页 面 组 成 的 极 小 的 例 
子 ， 真 正 的 搜索 引擎 必须 从 数 百 亿 个 网 页 中 找 出 正确 的 结果 。 


词 位 置 把 戏 


这 一 问题 的 解决 方案 是 让 现代 搜索 引擎 运行 良好 的 首 个 、 真 正 精 
巧 的 思想 : 索引 应 该 不 单单 存储 页 码 ， 还 要 存储 页 面 内 的 位 置 。 这 些 
位 置 并 不 神秘 : 它们 只 是 代表 了 一 个 词 在 页 面 中 的 位 置 。 第 3 个 词 的 位 
置 是 3， 第 29 个 词 的 位 置 是 29， 依 此 类 推 。 例 子 中 三 个 页 面 组 成 的 数据 
集 如 下 页 图 所 示 ， 还 加 上 了 词 位 置 。 图 下 面 的 是 索引 一 一 由 存储 页 码 
和 词 位 置 中 得 出 的 结果 组 成 。 我 们 称 这 种 创建 索引 的 方法 为 “ 词 位 置 把 
戏 ”(word location trick) 。 举 几 个 例子 ， 以 确保 大 家 理解 了 词 位 置 把 
戏 。 索 引 的 第 一 行 是 “a3-5.”。 这 意味 着 词 “a” 只 在 数据 集中 出 现 过 一 
次 ， 是 第 3 页 的 第 5 个 单词 。 索 引 中 最 长 的 一 行 征 “the 1-1 1-5 2-1 2-5 3- 
1”。 这 一 行 可 以 让 你 知道 ， 这 个 数据 集中 所 有 出 现 单 词 “the”* 的 具体 位 
置 。 它 在 第 1 页 出 现 过 两 次 (位 置 1 和 5) ， 第 2 页 出 现 过 两 次 (位 置 1 和 
5) ， 第 3 页 出 现 过 1 次 (位 置 1) 。 


你 还 记得 介绍 页 内 词 位 置 的 目的 吗 ? 是 为 了 解决 如 何 有 效 地 进行 
短语 查询 这 个 问题 。 让 我 们 来 看 看 如 何 用 这 个 新 索引 做 一 次 短语 查 
询 。 还 是 和 前 面 一 样 ， 查 询 短语 “cat sat*。 第 一 步 和 使 用 旧 索 引 时 一 
样 : 从 索引 中 提取 单个 词 的 位 置 ，“cat* 的 位 置 是 1-2、3-2，“sat” 的 位 置 
是 1-3、3-7。 到 这 里 还 好 : 我 们 知道 短语 查询 “cat sat" 唯 一 可 能 的 命中 
束 是 在 第 1 页 和 第 3 页 。 但 与 之 前 一 样 ， 我 们 还 不 确定 相同 的 短语 是 否 
出 现在 了 这 些 页 面 中 一 一 有 可 能 这 两 个 单词 的 确 出 现 了 ， 但 并 不 是 以 
正确 的 顺序 彼此 相 邻 。 笠 运 的 是 ， 从 位 置信 息 中 确认 这 一 点 很 容易 。 
首先 从 第 1 页 开始 。 根 据 索 引信 息 ， 我 们 知道 “cat" 出 现在 第 1 页 的 位 置 2 


(这 就 是 1-2 的 含义 ) 。 我 们 还 知道 “sat* 出 现在 第 1 页 的 位 置 3 (这 是 1-3 
的 含义 ) 。 但 如 果 “cat* 在 位 置 2，“sat”* 在 位 置 3， 我 们 就 知道 “sat”*” 紧 挨 
着 出 现在 “cat* 之 后 (因为 2 之 后 立即 就 是 3) 一 一 因此 我 们 寻找 的 整个 
短语 “cat sat" 必 定 出 现在 第 1 页 ， 并 从 位 置 2 开始 。 


a 3-5 

cat 12 3-2 

dog 2-2 3-6 

mat 1-6 2-6 

ON 1-4 2-4 

sat -1-3 3-7 

stood 2-3 3-3 

the 11 1.5 2-1 25 3.| 
While 3-4 


底 图 : 同时 包含 页 码 和 页 内 词 位 置 的 新 索引 。 


顶 图 : 3 个 网 页 加 上 了 页 内 词 位 置 。 


我 知道 自己 在 这 点 上 谈 得 很 多 ， 但 巨细 无 遗 、 从 头 至 尾 地 研究 这 
个 例子 ， 是 为 了 让 读者 真正 地 理解 为 了 获得 答案 究竟 使 用 了 哪些 信 
息 。 注 意 ， 我 们 已 经 为 短语 “cat sat” 找 到 了 一 次 命中 ， 仅 仅 是 通过 查看 
索引 信息 (“cat”* 的 位 置 1-2、3-2，“sat” 的 位 置 1-3、3-7) ， 而 非 原始 网 
页 。 这 很 关键 ， 因 为 我 们 只 需 查 看 索引 中 的 两 个 项 ， 而 非 遍历 所 有 可 
包含 命中 的 页 面 一 一 而 在 进行 真正 短语 查询 的 真正 的 搜索 引擎 中 ， 
可 能 有 数 百 万 个 这 样 的 页 面 。 总 之 : 通过 在 索引 中 加 入 页 内 词 位 置 ， 
我 们 只 需 通 过 查看 索引 中 的 几 行 ， 就 能 找到 一 次 短语 查询 命中 ， 而 非 
遍历 海量 页 面 。 这 个 简单 的 词 位 置 把 戏 是 让 搜索 引擎 奏效 的 关键 之 


事实 上 ， 我 还 没 讲 完 “cat sat* 这 个 例子 。 我 们 完成 了 对 第 1 页 信息 
的 处 理 ， 但 第 3 页 还 没 处 理 。 对 第 3 页 的 推理 和 第 1 页 的 处 理 方 式 很 相 
似 : “cat" 出 现在 第 3 页 的 位 置 2, “sat" 出 现在 位 置 7， 因 此 它们 不 可 能 相 
邻 一 一 因为 紧 跟 2 之 后 出 现 的 不 是 7。 这 样 我 们 就 知道 ， 第 3 页 并 不 是 短 


语 查 询 “cat sat” 的 命中 ， 尽 管 它 是 多 词 查询 cat sat 的 命中 。 


顺便 说 一 下 ， 词 位 置 把 戏 不 仅仅 对 短语 查询 重要 。 举 个 例子 ， 
考 一 下 寻找 相 邻 单词 的 问题 。 在 一 些 搜索 引 敬 中， 用 户 可 以 在 查询 中 
使 用 "NEAR”" 关 键 词 做 到 这 一 点 。 事 实 上 ，AltaVista 搜 索引 擎 在 早期 就 
提供 了 这 一 功能 ， 在 本 书写 作 时 仍然 提供 。 作 为 一 个 特殊 的 例子 ， 假 
设 在 一 些 特别 的 搜索 引 敬 中， 查询 cat NEAR dog 会 找到 “dog” 前 后 五 个 


位 置 之 内 出 现 “cat* 的 页 面 。 我 们 如 何 才能 在 数据 集中 有 效 地 执行 这 种 
查询 ? 使 用 词 位 置 ， 会 使 得 询 变 得 很 容易 。"“cat" 的 索引 项 是 1-2、3-2， 
而 “dog” 的 索引 项 是 2-2、3-6。 可 以 立刻 看 出 ， 第 3 页 是 唯一 可 能 的 命 
中 。 而 在 第 3 页 , “cat" 出 现在 位 置 2, “dog” 出 现在 位 置 6。 因 此 这 两 个 
词 之 间 的 距离 是 6 一 2， 结 果 是 4°。 因此 ，“cat” 的 确 出 现在 “dog” 前 后 五 
个 位 置 之 内 ， 而 第 3 页 则 是 查询 cat NEAR dog 的 命中 。 和 前 面 一 样 ， 请 
注意 这 次 查询 的 执行 是 多 么 高 效 : 无 须 遍 历任 何 网 页 的 实际 内 容 一 一 
相反 ， 只 参考 了 索引 中 的 两 个 项 。 


不 过 ， 在 实际 中 ，NEAR 查 询 对 搜索 引 苟 用户 并 不 非常 重要 。 几 平 
没 人 使 用 NEAR 碍 询 ， 绝 大 多 数 主要 搜索 引擎 甚至 不 支持 它们 。 尽 管 如 
此 ， 能 执行 NEAR 查 询 的 能 力 实 际 上 对 现实 中 的 搜索 引擎 至 关 重 要 。 这 
是 因为 搜索 引擎 不 断 地 在 后 台 执行 NEAR 查 询 。 要 理解 其 中 的 原因 ， 我 
们 百 先 不 得 不 研究 现代 搜索 引擎 面临 的 主要 问题 之 一 :排名 的 问题 。 


排名 和 邻 度 


到 目前 为 止 ， 我 们 一 直 专 注 于 匹配 阶段 : 为 一 个 给 出 的 查询 高 效 
地 找 出 所 有 命中 的 问题 。 不 过 正如 之 前 强调 的 ， 第 二 个 阶段 “排名 ”对 
于 一 个 高 质量 的 搜索 引擎 是 绝对 必 不 可 少 的 : 这 是 挑选 出 前 几 个 命中 
并 展示 给 用 户 的 阶段 。 


让 我 们 更 细致 地 来 检验 排名 的 概念 。 一 个 网 页 的 “排名 ”究竟 取决 
于 什么 ? 真正 的 问题 不 是 “这 个 网 页 和 查询 匹配 吗 *”， 而 钙 “ 这 个 网 页 和 
查询 相关 吗 *”。 计 算 机 科学 家 们 使 用 “相关 度 ” (relevance) 这 个 术语 来 
形容 一 个 结果 网 页 和 某 个 特定 查询 有 和 多么 相配 或 多 么 有 用 。 


举 个 具体 的 例子 ,假设 你 对 导致 症 疾 的 原因 感 兴趣 ， 并 在 一 个 搜 
索引 擎 中 输入 查询 malaria cause (导致 症 疾 ) 。 简 化 考虑 ， 假 设 搜 索引 
擎 对 这 一 查询 只 有 两 个 命中 一 一 下 图 显示 的 两 个 网 页 。 现 在 来 看 看 这 
两 个 网 页 。 作 为 人 类 ， 你 很 快 吏 知 道 第 1 页 和 失 疾 起 因 有 关 ， 而 第 2 页 
似乎 是 对 刚刚 发 生 的 一 些 盏 事 行 动 的 描述 ， 只 不 过 恰巧 使 用 
了 “cause” 和 “malaria” 这 两 个 词 。 因 此 ， 和 第 2 页 相 比 ， 第 1 页 无 颖 和 查 
询 malaria cause 更 具 相 天 性 。 可 计算 机 不 古人， 让 计算 机 理解 这 两 页 的 
主题 也 很 难 ， 似 乎 不 可 能 让 搜索 引擎 正确 地 对 这 两 个 命中 进行 排名 。 


al50 1-19 


cause 1-6 2-2 
malaria 1-8 2-19 


whom 2-15 


顶 图 : 两 个 提 及 窟 疾 的 样本 网 页 。 


底 图 : 从 上 方 两 个 网 页 中 创建 的 索引 的 一 部 分 。 


不 过 ， 事 实 上 ， 有 一 种 很 简单 的 方法 让 这 个 例子 中 的 排名 正确 。 
查询 词 彼此 相 邻 的 网 页 比 那些 查询 词 相距 很 远 的 网 页 相关 度 更 高 。 在 
症 疾 这 个 例子 中 ，“malaria”* 和 “cause” 在 第 1 页 中 仪 相距 1 个 词 ， 而 在 第 2 
页 中 则 相距 17 个 词 。〈 记 住 ， 搜 索引 擎 只 通过 查看 索引 项 就 能 高 效 地 


发 现 这 一 点 ， 无 须 返 回 查 看 网 页 。) 因此 ， 尽 管 计算 机 并 不 真正 地 “ 理 
解 ?查询 的 主题 ， 它 也 能 猜测 网 页 1 比 网 页 2 更 具 相 关 性 ， 因 为 网 页 1 查 
询 词 之 间 的 距离 要 比 网 页 2 更 近 


总 而 言 之 ， 尽 管 人 们 不 经 常 使 用 NEAR 碍 询 ， 搜 索引 警世 在 不 断 地 
使 用 和 和 邻 度 有 关 的 信息 ， 提 高 搜索 排名 。 而 它们 能 高 效 地 做 到 这 点 的 
原因 则 是 ， 它 们 使 用 词 位 置 把 戏 。 


一 个 网 页 范例 集 ， 每 个 网 页 都 有 一 个 标题 和 一 段 正 文 。 


我 们 已 经 了 解 到 ， 早 在 距 今 5 000 年 以 前 ， 巴 比 伦 人 束 开 始 使 用 索 
引 。 而 词 定 位 把 戏 也 不 是 由 搜索 引擎 发 明 的 : 这 是 互联 网 出 现 以 前 ， 
男 一 种 信息 检索 中 用 到 的 著名 技术 。 不 过 ， 在 下 一 部 分 ， 我 们 将 了 解 
一 个 看 起 来 的 确 是 由 搜索 引擎 设计 者 发 明 的 新 把 戏 : 元 词 把 戏 

(metaword trick) 。 对 这 一 把 戏 和 众多 相关 思想 的 精巧 运用 ， 使 
AltaVista 搜 索引 擎 在 20 世 纪 90 年 代 晚 期 迅速 成 为 搜索 行业 的 领头 羊 。 


元 词 把 戏 


到 目前 为 止 ， 我 们 一 直 都 在 使 用 极其 倘 单 的 网 页 示例 。 然 而 ， 绝 
大 多 数 网 页 拥有 众多 结构 ， 包 括 标题 、 标 头 、 和 链接 和 图 片 ， 可 我 们 还 
一 直 认 为 网 页 只 是 普通 的 词 表 。 接 下 来 ， 我 们 将 探索 搜索 引擎 如 何 处 
理 网 页 中 的 结构 。 不 过 ， 为 了 尽 可 能 保持 简 持 ， 我 们 只 会 引入 一 层 结 
构 : 网 页 的 顶部 会 有 一 个 标题 ， 之 后 是 页 面 的 正文 。 上 图 显示 了 我 们 
熟悉 的 三 页 示例 ， 并 附加 了 一 些 标题 。 


实际 上 ， 要 像 搜索 引擎 一 样 分 析 网 页 结构 ， 我 们 需要 了 解 更 多 编 
写 网 页 的 知识 。 网 页 是 由 一 种 特殊 语言 编写 的 ， 以 便 网 络 浏览 器 能 用 
很 好 的 格式 展示 它们 。 (编写 网 页 最 常用 的 语言 被 称 为 HTML， 不 过 
HTML 的 细节 对 本 次 讨论 不 重要 。) 标 头 、 标 题 、 链 接 、 图 片 等 格式 化 
结构 是 用 被 称 为 元 词 的 特殊 单词 编写 的 。 比 如 ， 网 页 标题 开始 使 用 的 
元 词 也 许 是 <titleStart>， 而 结束 这 个 标题 的 元 词 可 能 是 <titleEnd>。 类 似 
的 ， 网 页 正文 可 能 是 ee 以 <bodyEnd> 结 束 。 不 要 纠结 
于 “<”`\“>” 这 些 符 号 。 它 们 出 现在 绝 大 多 数 计算 机 键盘 上 ， 人 们 通 
只 知道 这 些 符号 的 数学 意义 是 “大 于 ”和 “小 于 ”。 不 过 在 这 里 ， 这 些 符 号 
和 数学 没有 任何 关系 ， 只 是 方便 的 象征 ， 将 这 些 元 词 和 网 页 中 的 正常 
单词 区 分 开 来 。 


1 | <titlestart> my <titleStart> my <titleStart> my pets 
' dog <titleEnd> <titleEnd> sa 


<bodyStart> the 


a 


catsat onthe 
mat <bodyEnd» 


ogy stood on the 
rod 


和 上 图 一 样 的 网 页 集 ， 但 展示 的 是 用 元 词 编写 的 情况 ， 而 非 在 网 络 浏览 器 中 显示 的 样子 。 


看 一 下 上 面 的 图 。 这 张 图 展示 的 内 容 和 前 一 张 图 一 样 ， 但 显示 的 
是 实际 编写 网 页 的 样子 ， 而 非 在 网 络 浏览 器 中 显示 的 样子 。 绝 大 多 数 
网 络 浏览 絮 都 能 让 用 户 检 验 网 页 的 原始 内 容 ， 这 需要 选择 名 为 “查看 网 
页 源 代 码 ” 的 菜单 选项 一 一 我 建议 你 下 次 有 机 会 试验 一 下 。 (注意 ,在 
这 里 使 用 的 元 词 ， 如 <titleStart> 和 <titleEnd> 是 帮助 你 理解 的 虚构 的 、 易 
于 辨认 的 示例 。 在 真实 的 HTML 中 ， 元 词 被 称 作 标签 (tag) 。HTML 
中 开启 和 结束 标题 的 标签 是 <title> 和 </title> 一 一 你 可 以 在 使 用 “查看 网 
页 源 代码 ”的 菜单 选项 后 搜索 这 些 标签 。) 


在 创建 一 份 索 引 时 ， 赛 括 所 有 元 词 是 件 很 简单 的 事 。 无 须 新 把 
戏 : 你 只 要 像 存储 正 篆 单词 一 样 存储 元 词 位 置 束 行 。 下 页 的 图 显示 了 
从 带 有 元 词 的 三 个 网 页 中 创建 的 索引 。 看 一 下 这 张 图 ， 确 保 目 己 理解 
了 其 中 所 有 的 奥秘 。 比 如 ，“mat” 的 项 是 1-11、2-11， 表 示 “mat” 是 第 1 页 
的 第 11 个 词 ， 也 是 第 2 页 的 第 11 个 词 。 元 词 位 置 的 解读 也 一 


样 ，“<tileEnd>” 的 项 是 1-4、2-4 和 3-4， 也 就 是 说 “<tileEnd>” 是 第 1 页 、 


第 2 页 和 第 3 页 的 第 4 个 词 。 


我 们 称 这 种 和 索引 普通 单词 一 样 索引 元 词 的 简单 把 戏 为 “元 词 把 
戏 ”。 这 个 把 戏 也 许 看 起 来 简单 得 可 笑 ， 但 元 词 把 戏 在 让 搜索 引擎 执行 
精确 搜索 和 高 质量 排名 上 扮演 了 至 天 重要 的 角色 。 举 个 简单 例子 证 
明 。 假 设 在 某 个 时 候 ， 有 个 搜索 引 敬 支持 使 用 IN 关 键 词 的 特殊 查询 ， 
因此 像 boat IN TITLE 这 样 的 查询 只 会 返回 在 网 页 标题 中 包含 了 单 
词 “boat* 的 网 页 ， 而 查询 giraffe IN BODY 则 会 找到 在 正文 中 包 
售 “giraffe” (长 颈 鹿 ) 的 网 页 。 请 注意 ， 绝 大 多 数 搜索 引擎 并 不 完全 按 
照 这 种 方法 提供 IN 查询 ， 但 一 些 搜 索引 警 可 以 通过 让 你 点 击 * 高 级 搜 
索 ” 选 项 ， 详 细 说 明 查 询 词 必须 出 现 


a 3-10 
cat 1-3 1-7 3-7 
dog 2-3 2-7 3-11 
mat 1-11 2-11 
my 1-2 2-2 3-2 
on 1-9 2-9 
pets 3-3 
sat 1-8 3-12 
stood 2-8 3-8 
the 1-6 1-10 2-6 2-10 3-6 
while 3-9 
<bodyEnd> 1-12 2-12 3-13 
<bodyStart> 1-5 2-5 3-5 
<titleEnd> 1-4 2-4 3-4 
<titleStart> 1-1 2-1 3-1 

上 一 张 图 中 的 网 页 (包括 元 词 ) 的 索引 。 


sog: 人 27 3 
<titleStart> ， 1-1 {2113-1 


r=---==| 


<titleEnd> : 1-4 126 3-4; 


和 


搜索 引擎 如 何 有 效 地 执行 查询 dog IN TITLE 。 


在 标题 或 一 份 文 件 的 特定 位 置 来 实现 同样 的 效 末 。 我 们 假定 IN 天 
键 词 存 在 ， 以 便 更 容易 解释 。 事 实 上 ， 在 写作 本 书 时 ， 谷 歌 已 经 可 以 
让 用 户 通过 使 用 关键 词 intitle 进 行 标题 搜索 : 因此 ， 在 谷歌 中 查询 
intitle:boat， 将 找到 标题 中 市 有 ”boat 的 网 页 。 目 己 试 试 ! 


让 我 们 来 看 看 ， 在 上 面 两 张 图 中 由 三 个 网 页 组 成 的 示例 里 。 


首先 ， 搜 索引 擎 提取 “dog” 的 索引 项 ， 也 就 是 2-3、2-7 和 3-11。 然 后 
(这 可 能 有 点 出 人 意料 ， 但 请 忍耐 片刻 ) 搜索 引擎 会 同时 提取 
<titleStart> 和 <titleEnd> 的 索引 项 。 


<titleStart> 的 索引 项 是 1-1、2-1 和 3-1，<titleEnd> 的 索引 项 是 1-4、 
2-4 和 3-4。 这 些 提 取信 息 全 部 显示 在 上 图 中 ， 你 可 以 忽略 那些 圈 和 框 。 


之 后 ， 搜 索引 擎 开始 扫描 “dog” 的 索引 项 ， 检 查 其 命中 ， 看 是 否 有 
哪个 命中 发 生 在 标题 内 。“dog” 的 第 一 个 命中 是 圈 起 来 的 项 2-3， 代 表 其 
是 第 2 页 的 第 3 个 词 。 通 过 一 并 扫描 <titleStart> 的 项 ， 搜 索引 警 就 能 知道 
第 2 页 的 标题 从 哪 开 始 一 一 即 索引 项 的 第 一 个 数字 要 以 “2-” 开 始 ， 世 了 就 
是 被 圈 的 项 2-1， 即 第 2 页 的 标题 从 第 1 个 单词 处 开始 。 同 样 的 ， 搜 索引 
擎 能 知道 第 2 页 的 标题 在 哪 结束 。 搜 索引 苟 只 要 扫描 索引 项 中 的 
<titleEnd> ， 寻 找 以 “2-” 开 始 的 索引 项 数字 ， 在 这 个 例子 中 就 是 停止 在 
被 圈 的 项 2-4 处 。 因 此 第 2 页 的 标题 在 第 4 个 词 处 结 


我 们 目前 已 知 的 所 有 东西 都 被 图 中 圈 住 的 项 总 结 了 。 它 们 告诉 我 
们 第 2 页 的 标题 从 第 1 个 词 开始 ， 到 第 4 个 词 结束 ， 而 “dog” 这 个 词 是 第 3 
个 词 。 最 后 一 步 很 简单 : 因为 3 大 于 1， 小 于 4， 我 们 肯定 “dog” 的 这 次 
命中 确实 出 现在 一 个 标题 中 ， 因 此 第 2 页 应 该 是 查询 dog IN TITLE 的 命 
中 o 


现在 搜索 引擎 可 以 转向 寻找 “dog” 的 第 二 个 命中 ， 也 就 是 2-7 (第 2 
页 的 第 7 个 词 ) ， 但 因为 我 们 已 经 知道 第 2 页 是 命中 ， 因 此 可 以 忽略 2-7 
这 个 项 ， 转 向 下 一 个 命中 3-11 (由 一 个 框 标记 ) 。 这 表示 “dog” 是 第 3 页 
第 11 个 词 。 于 是 我 们 开始 跳 过 被 圈 住 的 <titleStart> 和 <titleEnd> 项 ， 寻 找 
以 “3-” 开 始 的 项 。 (有 一 点 需要 重点 注意 ， 我 们 不 必 回 到 每 行 的 开始 ， 
而 是 可 以 从 之 前 扫描 命中 的 地 方 重新 开始 。) 在 这 个 简单 例子 中 ， 
以 “3-” 开 始 的 项 恰好 彼此 相 邻 
为 便于 参考 ， 这 两 个 数字 都 用 框 围 了 起 来 。 接 下 来 ， 我 们 又 面临 判 
定 “dog” 在 3-11 的 命中 是 否 位 于 标题 内 的 问题 。 框 内 信息 告诉 我 们 ， 它 
们 都 是 在 第 三 页 ，“dog” 是 第 11 个 词 ， 而 标题 从 第 1 个 词 开始 ， 到 第 4 个 
词 结束 。 因 为 11 大 于 4， 所 以 “dog” 的 这 次 命中 出 现在 标题 之 后 ， 也 就 是 
不 在 标题 内 。 网 页 3 并 不 是 查询 dog IN TITLE 的 命中 。 


<titleStart> 是 3-1，<titleEnd> 是 3-4。 


元 词 把 戏 能 让 搜索 引擎 以 极端 高 效 的 方式 回应 有 关 一 个 文件 结构 
的 查询 。 上 面 的 例子 只 是 搜索 页 面 标题 内 ， 但 类 似 的 技术 能 让 用 户 搜 
索 超 链接 、 图 片 描 述 和 网 页 其 他 有 用 部 分 内 的 词 。 而 且 所 有 这 类 查询 


都 可 以 像 上 面 的 例子 一 样 得 到 高 效 回应 。 正 如 我 们 之 前 讨论 过 的 查 
询 ， 搜 索引 擎 无 须 返 回 查 看 原始 网 页 : 搜索 引擎 只 需 碍 阅 小 部 分 索引 
项 ， 束 能 回应 查询 。 同 样 重要 的 是 ， 搜 索引 擎 只 需 遍历 每 个 索引 项 一 
次 。 还 记得 我 们 在 完成 处 理 第 2 页 的 百 个 命中 后 ， 转 同 第 3 页 的 可 能 命 
中 时 发 生 了 什么 吗 ? 搜索 引 敬 并 没有 返回 索引 项 <titleStart> 和 <titleEnd> 
的 开端 ， 而 是 从 之 前 离开 的 地 方 继续 进行 扫描 。 这 也 是 让 IN 查 询 高 效 
的 关键 因素 。 


标题 查询 和 其 他 取决 于 网 页 结构 的 “结构 查询 ”类 似 于 之 前 讨论 的 
NEAR 碍 询 ， 虽 然 人 们 极 少 执行 结构 查询 ， 但 搜索 引擎 无 时 无 刻 不 在 内 
部 使 用 它们 。 原 因 之 前 提 过 : 搜索 引擎 的 生死 由 其 排名 的 质量 决定 ， 
而 通过 利用 网 页 结构 ， 排 名 质量 能 够 得 到 大 帐 提升。 比如， 标题 中 
有 “dog” 的 网 页 包含 与 狗 有 关 信 息 的 可 能 性 ， 要 比 在 网 页 正文 中 提 
及 “dog” 的 网 页 大 得 多 。 因 此 ， 当 一 名 用 户 输入 简单 的 查询 dog， 搜 索 
引擎 能 在 内 部 执行 一 个 dog IN TITLE 查 询 (即便 用 户 并 未 详细 地 要 求 这 
一 点 ) ， 以 寻找 最 有 可 能 与 狗 有 关 的 网 页 ， 而 非 只 是 恰好 提 到 狗 的 网 
页 。 


AN 


索引 和 匹配 把 戏 并 非 是 全 部 内 容 


搭建 一 个 搜索 引擎 并 不 是 一 件 容 易 的 事情 。 最 终 成 品 承 像 一 个 巨 
大 的 复杂 机 器 ， 带 有 许多 不 同 的 轮子 、 发 动机 和 杠杆 。 这 些 装置 都 必 


须 安 装 正确 ， 系 统 才 能 有 用 。 因 此 ， 单 靠 在 本 章 中 出 现 的 两 个 把 戏 并 
不 能 解决 创建 一 个 高 效 搜索 引擎 索引 的 问题 ， 意 识 到 这 一 点 很 重要 。 
不 过 ， 词 位 置 把 戏 和 元 词 把 戏 无 颖 展现 了 真正 的 搜索 引擎 构建 和 使 用 
索引 的 “风味 ”。 


元 词 把 戏 的 确 帮 助 过 AltaVista 一 一 其 他 搜索 引擎 则 失败 了 一 一 成 功 
地 在 整个 互联 网 中 寻找 有 效 匹 配 。 我 们 之 所 以 知道 这 一 点 ， 是 因为 
AltaVista 在 1999 年 递交 的 美国 专利 文件 《索引 的 限制 搜索 》 
( Constrained Searching of an Index) 中 描述 了 元 词 把 戏 。 不 过 ， 
AltaVista 超 级 精巧 的 匹配 算法 并 不 足以 让 其 从 搜索 行业 流 涛 湖 涌 的 早期 
脱颖而出 。 正 如 我 们 已 经 知道 的 ， 有 效 匹配 只 是 一 个 高 效 搜索 引擎 的 
一 半 ， 男 一 大 挑战 是 对 匹配 网 页 进行 排名 。 正 如 我 们 将 在 下 一 革 中 看 
到 的 ， 一 种 新 排名 算法 的 出 现 足以 让 AltaVista 相 形 见 线 ， 并 让 谷歌 一 跃 
进入 网 络 搜索 世界 的 最 前 沿 。 


[注意 英文 单词 的 双 引 号 。 一 一 译 者 注 


第 三 章 
PageRank 
一 一 让 谷歌 腾飞 的 技术 


《星际 迷航 》 (Star Trek) 中 的 计算 机 并 不 特别 让 人 感 兴趣 。 他 们 向 计算 机 提问 题 ， 计 算 机 还 
要 想 一 会 儿 。 我 觉得 我 们 能 做 得 更 好 。 


一 一 拉 里 : 佩 奇 (谷歌 联合 创始 人 ) 


从 建筑 学 的 角度 来 说 ， 车 库 基 本 上 是 个 简陋 的 地 方 。 但 在 硅谷 ， 
车 库 有 一 种 特殊 的 创业 含义 : 许多 伟大 的 硅谷 技术 公司 在 此 诞生 或 至 
少 从 车 库 中 孵化 而 来 。 这 一 趋势 并 非 从 20 世 纪 90 年 代 的 互联 网 泡沫 开 
始 。 在 互联 网 泡沫 出 现 的 50 多 年 前 ， 也 就 是 1939 年 ， 当 世界 经 济 仍 未 
从 大 萧条 的 影响 中 走出 来 时 ， 惠 普 (Hewlett-Packard) 就 在 加 利 福 尼 亚 
州 帕 洛 阿尔 托 (Palo Alto) 戴 夫 . 休 利 特 (Dave Hewlett) 的 车 库 中 逐渐 
成 形 了 。 几 十 年 之 后 ， 史 带 夫 : 乔 布 斯 (Steve Jobs) 和 史 带 夫 : 沃 效 尼 亚 
克 (Steve Wozniak) 于 1976 年 在 加 利 福 尼 亚 州 洛斯 拉 图 斯 乔布斯 的 车 
库 中 创业 ， 之 后 创建 了 今天 传奇 的 苹果 计算 机 公司 。 (尽管 传说 苹果 
公司 创办 于 车 库 ， 乔 布 斯 和 沃 效 尼 亚 克 一 开始 其 实 是 从 一 间 卧 室 开始 
的 。 空 间 很 快 就 不 够 用 了 ， 于 是 他 们 转移 到 了 车 库 。) 不 过 ， 和 惠普 
和 苹果 的 成 功 故事 相 比 ， 一 个 名 为 谷歌 的 搜索 引擎 的 创办 过 程 更 令 人 
惊叹 。 合 歌 从 加 利 福 尼 亚 州 门 洛 帕克 市 的 一 间 车 库 开 始 ， 并 于 1998 年 9 
月 注册 成 立 公司 。 


那 时 ， 人 谷歌 事 实 上 已 经 运 介 目 己 的 搜索 引擎 一 年 多 了 一 一 最 开始 
苹 在 斯 坦 福 大 学 的 服务 器 上， 合 歌 的 两 位 联合 创始 人 都 是 斯 坦 福 博士 
生 。 直 到 斯 坦 福 大 学 再 也 不 能 承受 这 一 日 益 受 欢迎 的 服务 所 需要 的 带 
宽 ， 


拉 里 . 佩 奇 和 谢 尔 盖 . 布 林 才 把 公司 转移 到 了 如 今 著 名 的 门 洛 帕克 车 
库 。 他 们 肯定 做 了 些 正确 的 事 ， 因 为 在 他 们 正式 成 立 公 司 3 个 月 后 ， 美 


UU 


国 《 个 人 计算 机 杂志 》 (PC Magazine) 就 宣布 谷歌 是 1998 年 美国 排名 
前 一 百 的 网 站 之 一 。 


这 也 是 我 们 的 故事 真正 开始 的 地 方 ， 在 当年 《个 人 计算 机 杂志 》 
的 评论 中 ， 谷 歌 的 精英 管理 层 因为 谷歌 "以 超 乎 寻常 的 技巧 返回 相关 度 
极 高 的 结果 ”而 获奖 。 你 也 许 还 记得 上 一 章 提 到 过 ， 第 一 个 商业 搜索 引 
擎 于 4 年 前 的 1994 年 发 布 。 还 在 车 库 里 的 谷歌 怎么 能 弥补 4 年 的 巨大 差 
距 ， 在 搜索 质量 上 超越 已 经 很 受 欢迎 的 Lycos 和 AltaVista 呢 ?这 一 问题 
的 答案 可 不 简单 。 但 最 重要 的 因素 之 一 一 一 尤其 是 在 网 络 搜 索 早期 
就 是 谷歌 用 来 对 其 搜索 结果 进行 排名 的 创新 算法 : 一 个 被 称 为 
PageRank 的 著名 算法 。 


“PageRank” 是 个 双关 词 : 它 既 是 一 种 对 网 页 排名 的 算法 ， 也 是 其 
主要 发 明 者 拉 里 . 佩 奇 的 排名 算法 。 佩 奇 和 布 林 在 1998 年 的 一 篇 学 术 会 
议论 文 《解析 大 规模 超 文本 网 络 搜索 引 警 》 (the Anatomy of a Large- 
Scale Hypertextual Web Search Engine) 中 发 表 了 这 一 算法 。 正 如 论文 标 
题 所 暗示 的 ， 这 篇 论文 的 内 容 不 止 是 描述 PageRank。 事 实 上 ， 这 是 对 
1998 年 存在 的 谷歌 系统 的 完整 描述 。 但 藏 在 这 一 系统 技术 细 下 中 的 ， 
是 对 也 许 是 21 世 纪 出 现 的 第 一 个 算法 瑰宝 的 描述 : PageRank 算 法。 在 
本 章 ， 我 们 将 探索 这 一 算法 如 何以 及 为 什么 能 在 草 壤 中 寻 针 ， 并 持续 
为 搜索 查询 提供 最 相关 的 结果 一 一 也 是 排名 最 靠 前 的 命中 。 


超 链接 把 戏 


你 很 有 可 能 已 经 知道 了 超 链接 是 什么 ， 超 链接 是 网 页 上 的 一 个 短 
语 ， 当 你 点 击 它 时 ， 你 将 被 市 到 男 一 个 网 页 。 绝 大 多 数 网 络 浏 咒 右 用 
监 色 改线 显示 超 链 授 ， 以 便 能 轻易 识别 。 


令 人 意外 的 是 ， 超 链接 也 是 老 想 法 。1945 年 一 一 大 约 在 同时 开始 
开发 电子 计算 机 一 一 美国 工程 师范 内 瓦 - 布 什 (Vannevar Bush) 发 表 了 
一 篇 极 具 前 瞻 性 的 论文 《 诚 阁 所 思 》。 在 这 篇 涉猎 广泛 的 论文 中 ， 布 
什 描述 了 大 量 可 能 的 新 技术 ， 包 括 一 台 被 称 作 老 老 克 斯 (memex) 的 
机 器 。 麦 麦克 斯 可 以 存储 文件 并 目 动 进行 索引 ， 但 其 功能 远 不 止 守 
些 。 麦 麦克 斯 允许 “关联 索引 ..…... 任 何 被 选中 的 东西 都 能 立即 自动 选 # 
另 一 个 东西 ”一 换 名 话说， 一 种 早期 的 超 链 接 。 


y 
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超 链 接 把 戏 (the hyperlink trick) 的 原理 。 上 面 显示 了 6 个 网 页 ， 每 个 框 都 代表 1 个 网 页 。 其 中 2 


个 网 页 是 炒 蛋 菜谱 ， 其 余 4 个 网 页 都 有 这 些 菜谱 的 超 链 接 。 超 链接 把 戏 认 为 伯 特 的 网 页 比 欧 尼 


的 网 页 排名 高 ， 因 为 伯 特 有 三 个 链 入 链接 (incoming link) ， 而 欧 尼 的 只 有 一 个 。 


超 链接 自 1945 年 就 已 出 现 。 它 们 是 搜索 引擎 用 来 进行 排名 最 重要 
的 工具 之 一 ， 而 且 是 谷歌 PageRank 技 术 的 基础 。 接 下 来 ， 我 们 将 开始 
以 最 大 的 热情 探索 PageRank 技 术 。 


理解 PageRank 的 第 一 步 是 一 个 名 为 超 链接 把 戏 的 简单 想法 。 用 一 
个 例子 就 能 非常 容易 地 解释 这 个 把 戏 。 假 设 你 对 学 习 如 何 制 作 炒 蛋 感 


兴趣 ， 并 且 用 网 络 搜索 了 这 一 主题 。 如 今 ， 任 何 一 次 真正 搜索 炒 蛋 的 
网 络 搜索 都 会 出 现 数 百 万 个 命中 ， 但 为 方便 起 见 ， 让 我 们 想象 只 有 两 
个 网 页 出 现 : 其 中 一 个 是 “ 欧 尼 的 炒 蛋 采 谱 ”， 而 为 一 个 则 是 “ 伯 特 的 炒 
和 蛋 采 详 ”。 这 两 个 网 页 部 出 现在 上 图 中 ， 与 之 一 道 的 是 拥有 这 些 菜 谱 超 
链接 的 网 页 。 还 是 为 了 方便 起 见 ， 让 我 们 想象 这 四 个 包含 超 链 接 的 网 
页 是 整个 互联 网 上 仅 有 的 链接 到 两 个 菜谱 网 页 之 一 的 网 页 。 图 中 底部 
画 线 的 文字 吏 代 表 超 链接 ， 而 荫 头 则 表示 链接 的 指 同 。 


问题 是 ， 这 两 个 命中 哪个 排名 应 该 更 高 ? 伯 特 还 是 欧 尼 ? 人 们 在 
阅读 链 向 这 两 份 荣 谱 的 网 页 并 作出 评价 上 不 会 有 太 大 的 问题 。 看 起 来 
这 两 份 沫 谱 部 很 合理 ,但 人 们 对 伯 特 节 谱 的 反 啊 要 更 为 热烈 一 些 。 因 
此 ， 在 没有 给 出 其 他 信息 的 情况 下 ， 伯 符 的 菜谱 比 欧 尼 的 采 谱 排名 更 


高 可 能 会 更 合理 。 


不 幸 的 是 ， 计 算 机 并 不 擅长 理解 网 页 的 真实 意思 ， 因 此 搜索 引擎 
今 查 这 四 个 链 向 命中 的 网 页 ， 并 对 每 份 菜谱 获 推荐 的 强烈 程度 进行 评 
佑 也 不 太 可 能 。 另 外 ， 计 算 机 在 计算 方面 非常 优秀 。 一 种 简单 方法 驶 
征 只 计算 链 同 每 份 某 谱 的 网 页 数 一 盖 在 这 个 例子 中 ， 一 个 网 页 链 癌 欧 
尼 的 荣 谱 ， 三 个 网 页 链 向 伯 特 的 荣 谱 一 一 并 根据 这 些 荣 谱 的 链 入 链接 
数 对 菜谱 排名 。 当 然 ， 这 种 方法 远 不 如 让 人 阅读 所 有 页 面 并 手动 排名 
精确 ， 但 无 疑 是 一 种 有 用 的 方法 。 如 果 你 没有 其 他 信息 ， 一 个 网 页 的 
链 入 链接 数 可 以 成 为 该 网 页 可 能 会 多 有 用 或 多 有 “权威 性 ”的 指标 。 在 


这 个 例子 中 ， 伯 特 的 菜谱 得 分 为 3， 欧 尼 的 菜谱 得 分 为 1， 因 此 在 搜索 
引 警 向 用 户 展 示 的 结果 中 ， 伯 特 的 网 页 排名 比 欧 尼 的 高 。 


你 可 能 已 经 发 现 了 一 些 在 排名 上 使 用 这 种 “ 超 链 接 把 戏 ” 的 问题 。 

个 很 明显 的 问题 束 是 ， 有 了 时候 链接 被 用 来 显示 有 蕾 网 页 ， 而 非 好 网 

页 。 比 如 ， 假 设 有 个 链接 欧 尼 沫 谱 的 网 页 上 写 着 : “我 坛 了 下 欧 尼 的 沫 

谐 ， 很 糟糕 。” 像 这 样 批评 而 非 推 荐 一 个 网 页 的 链接 ， 的 确 会 导致 超 链 

接 把 戏 将 网 页 的 排名 拔高 。 不 过 ， 在 现实 中 ， 超 链接 更 多 是 用 于 推荐 
而 非 批评 。 因 此， 尽管 有 这 个 明显 的 缺陷 ， 超 链接 把 戏 仍 然 很 有 用 。 


权重 把 戏 


你 可 能 已 经 在 想 ， 为 什么 要 对 网 页 的 所 有 链 入 链接 一 视 同 仁 。 来 
目 专 家 的 推荐 肯定 吏 要 比 菜鸟 的 推荐 更 有 价值 ? 要 细致 地 理解 这 一 
扩 ， 我 们 继续 人 研究 上 面 的 炒 蛋 例子 ， 不 过 人 研究 的 是 男 一 组 链 入 链接 。 
下 页 的 图 对 链 入 链接 进行 了 重新 设置 ， 现在 ， 伯 符 和 欧 尼 的 琳 谱 的 链 
入 链接 数 相等 了 (只 有 一 个 ) ， 但 欧 尼 的 链 入 链接 来 自我 的 主页 ， 而 
伯 特 的 则 来 自 于 著名 主 厨 艾 利 斯 ' 沃 特 斯 。 


如 果 没 有 其 他 信息 ， 你 更 喜欢 哪个 来 谱 ? 很 显然 ， 选 择 由 一 位 闭 
名 主 厨 推荐 的 采 谱 ， 要 比 选 择 由 一 名 计算 机 科学 相关 书籍 作者 推荐 的 


沫 谱 更 好 。 我 们 称 这 一 基本 原则 为 “权重 把 戏 ” (the authority trick) : 
来 自 高 “权重 ”网 页 的 链接 排名 要 比 来 自 低 “权重 ”网 页 链接 的 排名 高 。 


伯 特 的 炒 蛋 菜 谱 
首先 融 一 小 勺 ， 


欧 尼 的 炒 蛋 菜谱 


加 盐 和 胡椒 ， 在 一 
个 大 碗 里 把 四 个 鸡 


蛋 搅 久 和 


艾 利 斯 ， 沃 特 斯 的 主页 


很 显然 , 伯 特 的 菜 
谱 是 最 好 的 炒 蛋 菜 
洪 和 2 


约翰 麦 考 密 克 的 主页 
我 尝试 过 欧 尼 
的 菜谱 一 次 ， 
一 点 都 不 差 。 


权重 把 戏 的 原理 。 这 里 显示 了 四 个 网 页 : 两 个 炒 蛋 菜谱 网 页 和 两 个 链 向 沫 谱 的 网 页 。 其 中 一 个 


链接 来 自 于 本 书 作者 〈 不 是 著名 主 厨 ) ， 而 另 一 个 链接 来 自 著 名 主 厨 艾 利 斯 * 沃 特 斯 的 主页 。 


权重 把 戏 将 伯 特 的 网 页 排 在 欧 尼 的 菜谱 之 前 ， 因 为 伯 特 的 链 入 链接 “权重 ” 比 欧 尼 的 链 入 链接 


大 。 


这 个 原则 很 好 ， 但 其 实际 形式 对 搜索 引擎 而 言 一 点 用 都 没有 。 计 
算 机 如 何 才 能 目 动 判定 文 利 斯 : 沃 特 斯 在 炒 蛋 方面 比 我 更 具有 权威 性 


呢 ? 有 个 想法 对 此 也 许 会 有 所 帮助 : 让 我 们 把 超 链接 把 戏 和 权重 把 戏 
结合 起 来 。 所 有 网 页 的 初始 权重 值 (authority score) 都 是 1， 但 如 果 一 
个 网 页 有 链 入 链接 ， 在 计算 该 网 页 权重 时 天 要 加 入 指 同 其 的 网 页 的 权 
重 。 也 束 是 说 ， 如 采 X 和 Y 网 页 链 同 Z 网 页 ， 那 么 Z 网 页 的 权重 吏 是 又 网 
页 和 Y 网 页 权重 相 加 的 值 。 


下 面 的 图 在 计算 这 两 个 炒 蛋 菜谱 网 页 的 权重 值 上 很 详细 。 终 值 显 
示 在 圆圈 中 。 图 中 有 了 两 个 网 页 链 癌 我 的 主页 ; 这 些 网 页 本 喘 没有 和 链 入 
链接 ， 因 此 权重 值 为 1。 我 的 主页 的 权重 值 是 所 有 链 入 链接 权重 值 的 总 
和 ， 相 加 得 2。 艾 利 斯 : 沃 特 斯 的 主页 有 100 个 链 入 链 授 ， 每 个 链 入 链接 
的 权重 值 为 1， 因 此 它 的 权重 是 100。 欧 尼 的 菜谱 只 有 一 个 链 入 链接 ， 
但 这 个 链 入 链接 的 权重 值 是 2， 因 此 将 其 所 有 链 入 链接 的 权重 值 相 加 
(这 个 例子 中 只 有 一 个 数 可 加 ) ， 欧 尼 染 谱 网 页 的 权重 值 为 2。 伯 特 菜 
谱 网 页 也 只 有 一 个 链 入 链接 ， 但 其 权重 值 为 100， 因 此 伯 特 号 谱 网 页 的 
权重 值 为 100。 而 因为 100 大 于 2， 所 以 伯 特 的 网 页 排名 要 比 欧 尼 的 高 。 


欧 尼 的 炒 蛋 亲 谱 | 伯 特 的 炒 直 菜 江 
首先 融 一 小 的 


加 盐 和 胡椒 和 
个 大 疯 里 把 四 个 交 


很 显然 ， 伯 特 的 菜 
湾 是 最 好 的 炒 蛋 雪 
谱 之 一 ， 00) 


SS 


ol Lo 
.100 页 … 


dg 总 


对 两 个 炒 蛋 菜谱 网 页 “权重 值 * 的 简单 计算 。 权 重 值 显示 在 圆圈 中 。 


随机 访问 者 把 戏 


束 目 动 计算 权 重 值 来 说 ， 我 们 似乎 拥有 了 一 个 真正 奏效 的 策略 ， 
无 须 计 算 机 真正 地 理解 网 页 内 容 。 不 幸 的 是 ， 这 种 方法 有 个 大 问题 。 
超 链接 很 有 可 能 形成 被 计算 机 科学 家 称 为 “循环 ”(cycle) 的 东西 。 循 
环 指 访问 者 可 以 通过 点 击 超 链接 返回 出 发 时 的 网 页 。 


下 图 就 是 个 例子 。 图 中 有 A、B、C、D、E 五 个 网 页 。 如 果 从 A 开 
始 ， 我 们 可 以 通过 A 访问 B， 然 后 又 从 B 访 问 E， 而 从 E 我 们 又 能 点 回 
A， 也 就 是 回 到 了 出 发 点 。 这 也 意味 着 A、B 和 E 三 个 网 页 组 成 了 一 个 循 
环 。 


超 链 接 循 环 的 一 个 例子 。 网 页 A、B 和 E 组 成 了 一 个 循环 ， 你 可 以 从 A 开始 ， 点 击 到 B， 然 后 到 


下 ， 再 返回 到 A 的 出 发 点 。 


循环 造成 的 问题 。 网 页 A、B 和 了 永远 需要 更 新 ， 它 们 的 权重 值 会 一 直 增 加 下 去 。 


看 来 ， 在 遇 到 循环 时 ， 目 前 “权重 值 ” 的 定义 (将 超 链 接 把 戏 和 权 
重 把 戏 结合 起 来 ) 就 碰 到 大 麻烦 了 “。 看 看 在 这 个 特例 中 会 发 生 什么 事 
情 。 网 页 C 和 D 没 有 链 入 链 授 ， 因 此 其 权重 值 为 1。 网 页 C 和 D 都 链 癌 网 
页 A， 因 此 A 的 权重 值 是 网 页 C 和 D 权 重 值 的 和 ， 也 就 是 1+1=2。B 网 页 
从 A 获得 的 权重 值 为 2， 而 E 又 从 B 获 得 权重 值 2。 (这 里 谈 到 的 情况 都 
由 上 图 左 侧 部 分 所 体现 。) 但 现在 A 的 权重 值 要 更 新 了 : A 从 C 和 DD 各 得 
到 权重 值 1， 但 也 从 E 得 到 权重 值 2， 相 加 为 4。 于 是 B 的 权重 值 也 需要 更 
新 : 从 A 获得 权重 值 4。 然 后 E 的 权重 值 也 要 更 新 ， 它 从 B 获 得 了 权重 值 
4。 (现在 谈 到 的 情况 都 由 上 图 右 侧 部 分 所 体现 。) 依 此 类 推 : 于 是 A 
的 权重 值 变 为 6，B 为 6，E 为 6， 于 十 A 的 权重 值 挛 为 8..…... 你 刷 了 吧 ? 
随 着 循环 进行 ， 网 页 的 权重 值 会 一 直 增 加 。 


这 样 计 算 权 重 值 ， 会 产生 “ 鸡 生 蛋 ， 还 是 蛋 生 鸡 ” 的 问题 。 如 采 我 
们 知道 A 网 页 真正 的 权重 值 ， 我 们 整 能 计算 B 网 页 和 E 网 页 的 权重 值 。 
而 如 琳 我 们 知道 B 网 页 和 E 网 页 真正 的 权重 值 ， 我 们 束 能 计算 A 网 页 的 
权重 值 。 但 由 于 这 些 网 页 彼此 依赖 ， 似 乎 这 样 计算 根本 行 不 通 。 


随机 访问 考 模 式 ， 被 访问 者 访问 的 网 页 用 灰色 表示 ， 虚 线 箭 头 代 表 随 机 重新 开始 访问 (restart)， 


实 线 箭 头 从 网 页 A 开 始 ， 指 向 随机 选择 的 超 链接 ， 并 被 两 个 随机 重新 开始 访问 箭头 所 打 乱 。 


幸运 的 是 ， 我 们 可 以 通过 被 称 为 随机 访问 者 把 戏 (the random 
surfer trick) 的 技术 解决 这 个 “ 鸡 生 蛋 ， 还 是 蛋 生 鸡 ” 的 问题 。 注 意 : 对 
随机 访问 者 把 戏 的 初始 描述 ， 和 到 目前 为 止 探 讨 的 超 链接 及 权重 把 戏 
没有 任何 关联 。 一 旦 了 解 了 随机 访问 者 把 戏 的 基本 原理 ， 我 们 就 会 做 
一 些 分 析 ， 揭 示 其 令 人 瞩目 的 品质 ， 随机 访问 者 把 戏 结合 了 超 链 接 及 
权重 把 戏 令 人 喜爱 的 属性 ， 但 在 出 现 超 链接 循环 时 也 行 得 通 。 


这 个 把 戏 从 假想 一 个 随机 访问 互联 网 的 人 开始 。 确 切 地 说 ， 访 问 
者 随机 从 万 维 网 上 的 一 个 网 页 开始 访问 ， 然 后 检查 该 网 页 上 的 所 有 超 
链接 ， 之 后 随机 挑选 出 其 中 一 个 超 链 接 进 行 点 击 。 用 户 再 检查 打开 的 
新 网 页 ， 随 机 选择 一 个 超 链接 打开 。 这 个 过 程 会 持续 进行 ， 每 一 个 网 
页 都 是 通过 随机 选择 前 一 个 网 页 上 的 链接 打开 的 。 上 图 就 是 个 例子 。 
在 这 个 例子 中 ， 我 们 假设 整个 万 维 网 只 有 16 个 网 页 。 框 代表 网 页 ， 季 
头 代表 网 页 之 间 的 超 链接 。 其 中 标记 了 四 个 网 页 以 便 稍 后 进行 参考 。 
被 访问 着 访问 的 网 页 用 灰色 表示 ， 黑 色 稍 头 代表 访问 着 点 击 的 超 链 
接 ， 虚 线 箭头 代表 随机 重新 开始 访问 ， 这 个 在 之 后 会 讲 到 。 


整个 过 程 有 一 个 转折 点 : 每 次 访问 一 个 网 页 时 ， 部 有 一 个 固定 的 
重新 访问 概率 (大 概 是 15%) ， 让 访问 者 不 从 已 有 的 超 链接 中 挑选 一 个 
并 点 击 。 相 反 ， 访 问 痢 会 重新 开始 这 一 过 程 ， 从 互联 网 上 随机 选择 一 


个 网 页 点 击 。 你 也 可 以 认为 访问 者 有 159% 的 概率 对 任何 已 有 网 页 厌倦 ， 
导致 其 总 击 必 一 组 链 搂 ， 这 人 么 想 也 许 会 有 帮助 。 要 想 找 些 例 于 ， 请 仔 
细 观 察 上 图 。 这 个 特定 的 访问 痢 从 网 页 A 开 始 ， 在 对 网 页 B 厌 倦 表 连续 
扩 击 了 三 个 随机 超 链 接 ， 并 在 网 页 C 重 新 开 始 。 在 下 次 重新 开始 前 ， 访 
问 者 又 点 击 了 两 个 随机 超 链接 。 (顺便 说 一 句 ， 本 章 中 所 有 随机 访问 
者 例子 中 的 重新 开始 概率 都 为 15%， 这 也 是 谷歌 联合 创始 人 拉 里 : 佩 奇 
和 谢 尔 盖 ' 布 林 在 描述 其 搜索 引擎 原型 的 原始 论文 中 使 用 的 值 。) 


用 计算 机 模拟 这 一 过 程 很 容易 。 我 为 此 写 了 一 个 程序 并 运行 了 
它 ， 直 到 访问 者 访问 了 1 000 个 网 页 。 (当然 ， 这 并 不 意味 着 古 1 000 个 
不 重复 的 网 页 。 对 同一 网 页 的 多 次 访问 也 被 纳入 了 计算 当中 ， 在 这 个 
例子 中 ， 所 有 网 页 都 被 访问 了 多 次 。) 这 1 000 次 模拟 访问 的 结果 显示 
在 下 图 ( 顶 图 ) 中 。 你 可 以 看 到 ， 网 页 D 的 访问 次 数 最 多 ， 有 144 次 。 


号 像 民 意 调查 一 样 ， 我 们 可 以 通过 增加 随机 样本 的 数目 来 提高 模 
拟 精度 。 我 重新 运行 了 一 次 模拟 ， 直 到 访问 者 访问 了 一 百 万 个 网 页 。 
(也 许 你 会 想 这 花 了 多 长 时 间 ， 在 我 电脑 上 运行 只 花 了 不 到 半 秒 ! ) 
考虑 到 访问 量 如 此 巨大 ， 还 是 用 百分比 表示 结果 更 好 。 这 也 束 是 你 将 
在 下 图 ( 底 图 ) 中 看 到 的 情形 。 和 之 前 的 结果 一 样 ， 网 页 D 的 访问 次 数 
最 频 烷 ， 占 总 访问 量 的 15%。 


随机 访问 者 模型 和 权重 把 戏 之 间 有 什么 联系 可 以 说 我 们 用 于 网 页 
排名 呢 ? 从 随机 访问 着 模拟 中 计算 得 出 的 百分比 ， 正 好 束 是 我 们 在 衡 


量 一 个 网 页 的 权重 时 所 需要 的 。 因 此 ， 让 我 们 将 网 页 的 访问 者 权重 值 

(surfer authority score) 定义 为 一 名 随机 访问 者 花 在 访问 该 网 页 的 时 间 
比例 。 值 得 注意 的 是 ， 访 问 者 权重 值 能 和 前 两 个 对 网 页 重要 性 进行 排 
名 的 把 戏 配合 恨 好 。 我 们 会 逐一 审视 这 些 把 戏 。 


百 完 ， 让 我 们 来 审视 一 下 超 链 接 把 戏 ， 超 链接 把 戏 的 主要 思想 
是 ， 一 个 有 许多 链 入 链接 的 网 页 应 该 有 高 排名 。 这 在 随机 访问 者 模型 
中 也 适用 ， 因 为 一 个 有 许多 链 入 链接 的 网 页 被 访问 的 概率 较 大 。 下 图 

( 底 图 ) 中 的 网 页 D 就 是 个 好 例子 : 它 有 五 个 链 入 链接 一 一 比 模拟 中 的 
其 他 网 页 都 多 一 一 访问 者 权重 值 也 最 高 (15%) 。 


其 次 ， 让 我 们 来 看 看 权重 把 戏 。 权 重 把 戏 的 主要 思想 是 ， 和 来 自 
低 权 重 网 页 的 链 入 链接 相 比 ， 一 个 来 自 高 权重 网 页 的 链 入 链接 应 该 更 
能 证 明 一 个 网 页 的 排名 。 随 机 访问 者 模型 也 包含 这 一 点 。 为 什么 ? 因 
为 和 一 个 来 自 不 知名 网 页 的 链接 相 比 ， 访 问 者 更 有 可 能 继续 点 击 一 个 
来 自 知名 网 页 的 链 入 链接 。 要 在 我 们 的 模拟 中 找 这 样 一 个 例子 ， 请 比 
较 上 面 底 图 中 的 网 页 A 和 C: 这 两 个 网 页 都 有 一 个 链 入 链接 ， 但 网 页 A 
的 访问 者 权重 值 要 高 得 多 (13% VS 2%) ， 这 主要 取决 于 其 链 入 链接 
的 质量 。 


随机 访问 者 模拟 。 顶 图 : 1000 次 访问 模拟 中 各 网 页 的 访问 次 数 。 


底 图 : 100 万 次 访问 模拟 中 各 网 页 的 访问 次 数 占 比 。 


注意 ， 随 机 访问 者 模型 天 生 能 同时 和 超 链 接 把 戏 及 权重 把 戏 相配 
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前 文 炒 蛋 例 中 各 网 页 的 访问 者 权重 值 。 伯 特 的 亲 谱 网 页 和 欧 尼 的 
来 谱 网 页 都 只 有 一 个 链 入 链接 传 入 权重 ， 但 伯 特 的 网 页 在 网 络 搜索 碍 
询 “scrambled eggs”( 炒 蛋 ) 时 排名 会 更 高 。 


换 铝 话 讽 ， 每 个 网 页 链 入 链接 的 质量 和 数量 都 会 被 纳入 考虑 苑 
围 。 网 页 B 就 展示 了 这 些 : 网 页 B 的 访问 者 权重 值 相对 较 高 (10%) ， 
得 一 于 二 个 链 入 链接 所 在 的 网 页 拥有 适中 的 访问 者 权重 值 ， 从 4% 到 7% 


不 等 。 


随机 访问 者 把 戏 的 美妙 之 处 在 于 ， 和 权重 把 戏 不 同 ， 不 管 超 链接 
有 没有 形成 循环 ， 随 机 访问 者 把 戏 都 能 完美 地 运作 。 回 到 早 前 的 炒 蛋 
例子 ， 我 们 能 轻易 地 运行 一 次 随机 访问 者 模 拟 。 在 数 百 万 次 访问 之 
后 ， 我 的 模拟 产生 了 如 上 图 所 示 的 访问 者 权重 值 。 


早 前 超 链接 循环 例子 (此 图 ) 的 访问 者 权重 值 。 随 机 访问 者 把 戏 在 计算 合理 的 分 值 上 没有 问 


题 ， 尽 管 存 在 一 个 循环 (A-B-E-A) 


请 留意 ， 和 之 前 使 用 权重 把 戏 进行 的 计算 一 样 ， 伯 特 的 网 页 访问 
者 权重 值 要 比 欧 尼 的 网 页 高 很 多 (28%VS 1%) 尽管 这 两 个 网 页 都 
只 有 一 个 链 入 链接 。 因 此 ， 伯 特 的 网 页 在 网 络 搜索 查询 “scrambled 
eggs” ( 炒 蛋 ) 中 排名 更 高 。 


现在 让 我 们 再 转向 前 文中 更 困难 的 例子 :对 于 最 初 的 权重 把 戏 而 
， 由 于 超 链 接 循 环 的 存在 ， 这 张 图 产生 了 一 个 不 可 解 的 问题 。 和 前 
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面 一 样 ， 运 行 一 次 随机 访问 者 的 计算 机 模拟 很 容易 ， 于 是 产生 了 如 上 
图 所 示 的 访问 者 权重 值 。 由 这 一 模拟 判定 的 访问 者 权重 值 给 出 了 网 页 
的 最 终 排 名 ， 这 些 排名 会 被 搜索 引擎 在 返回 结果 时 使 用 : 网 页 A 排 名 最 
高 ， 之 后 是 B 和 E，C 和 D 的 排名 同 列 最 后 一 名 。 


实际 中 的 PageRank 


谷歌 的 两 位 联合 创始 人 于 1998 年 在 他 们 著名 的 会 议论 文 《解析 大 
规模 超 文 本 网 络 搜索 引 获 》 中 接 述 了 随机 访问 着 把 戏 。 通 过 和 其 他 许 
多 技术 结合 ， 这 一 把 戏 的 变 体 仍 被 主流 搜索 引擎 所 使 用 。 不 过 ， 由 于 
众多 复杂 因素 ， 应 用 在 现代 搜索 引擎 中 的 实际 技术 和 本 章 描 述 的 随机 
访问 者 把 戏 略 有 不 同 。 


其 中 一 个 复杂 因素 直击 PageRank 的 核心 ， 有 时 候 ， 假 设 超 链 接 传 
输 的 合法 权威 性 有 和 争议。 我 们 先前 已 了 解 到 ， 尽 管 超 链接 能 代表 批评 
而 非 推荐 ， 但 这 在 现实 中 并 不 是 个 很 大 的 问题 。 另 一 个 更 加 严重 的 问 
题 是 ， 人 们 可 以 滥用 超 链接 把 戏 ， 人 为 地 提高 自己 网 页 的 排名 。 假 设 
你 运营 着 一 个 名 为 BooksBooksBooks.com 的 网 站 来 售 书 (惊讶 吧 ) 。 通 
过 使 用 自动 化 技术 ， 创 建 一 大 堆 不 同 的 网 页 一 一 比如 一 万 个 一 一 并 让 
这 些 网 页 都 链 向 BooksBooksBooks.com， 做 到 这 一 切 相 对 很 容易 。 因 
此 ， 如 果 搜 索引 警 和 本 章 描 述 的 一 样 来 计算 PageRank 权重， 


BooksBooksBooks.com 的 权重 值 就 能 比 其 他 书店 高 数 千 倍 ， 进 而 有 更 高 
的 排名 和 更 多 的 销售 额 ， 而 这 都 不 是 BooksBooksBooks.com 应 得 的 。 


搜索 引 敬 称 这 种 滥用 为 网 络 垃圾 (web spam) 。 (这 一 术语 是 和 
电子 邮件 垃圾 <e-mail spam> 类 比 得 来 的 ， 电 子 邮 件 收 件 箱 中 无 用 的 信 
息 ， 类 似 于 充斥 在 搜索 结果 中 无 用 的 网 页 。) 对 于 所 有 搜索 引擎 而 


言 ， 侦 测 并 消除 不 同类 型 的 网 络 垃圾 是 一 直 在 进行 的 重要 任务 。 比 
如 ， 在 2004 年 ， 微 软 一 些 研 究 人 员 发 现 ， 逾 30 万 个 网 页 部 只 有 1 001 个 


网 页 链 回 它们 一 一 这 是 件 非常 令 人 生 疑 的 事情 。 通 过 手动 检查 这 些 网 
页 ， 研 究 人 员 发 现 ， 这 些 链 入 超 链 接 绝 大 多 数 都 是 网 络 垃圾 。 


因此 ， 搜 索引 警 和 网 络 垃圾 制造 者 在 进行 一 场 军 备 竞 赛 。 搜 索引 
获 不 断 尝 试 完善 算法 ， 以 便 返 回 真实 排名 。 在 完善 PageRank 算 法 的 驱 
动 下 ， 孕 育 了 大 量 针对 其 他 使 用 互联 网 超 链接 结构 进行 网 页 排名 的 算 
法 的 学 术 和 行业 研 究 。 这 类 算法 通 闻 补 称 为 基于 链接 的 排名 算法 


(link-based ranking algorithms) 。 


另 一 个 复杂 因素 与 PageRank 计 算 的 高 效 性 有 关 。 访 问 者 权重 值 是 


长 ， 不 能 进行 实际 运用 。 因 此 ， 搜 索引 擎 并 非 通 过 模拟 随机 访问 者 来 
计算 PageRank 值 ， 它 们 使 用 能 像 随机 访问 着 模拟 一 样 给 出 相同 答案 的 
数学 技巧 ， 但 计算 成 本 要 低 很 多 。 我 们 人 研究 访问 者 模拟 技术 是 因为 它 
直观 的 吸引 力 ， 也 因为 它 摘 述 了 搜索 引擎 计算 什么 ， 而 非 如 何 计算 。 


另外 ， 值 得 一 提 的 还 有 ， 商 业 搜 索引 警 中 用 来 判定 排名 的 算法 ， 
要 比 PageRank 这 类 基于 链接 的 排名 算法 多 得 多 。 即 便 是 在 他 们 于 1998 
年 发 表 的 接 述 谷歌 的 原始 论文 中 ， 合 歌 的 联合 创始 人 也 提 到 了 多 种 对 
搜索 结果 排名 有 页 献 的 功能 。 正 如 你 所 想 的 ， 这 项 技术 已 经 进步 了 : 
在 写作 本 书 时 ， 合 歌 冒 网 上 声明 “有 超过 200 个 信号 ”被 用 于 评估 一 个 网 
页 的 重要 性 。 


除了 现代 搜索 引 警 的 众多 复杂 性 之 外 ，PageRank 核 心 的 优美 思想 
一 一 权威 性 网 页 通过 超 链 接 癌 其 他 网 页 传输 权重 一 一 仍然 有 效 。 正 是 
这 一 思想 帮助 谷歌 击败 了 AltaVista， 让 谷歌 从 一 家 小 型 创业 企业 几 年 后 
成 长 为 搜索 之 王 。 没 有 PageRank 的 核心 思想 ， 绝 大 多 数 搜索 引擎 查询 
都 将 被 成 二 上 万 命中 但 不 相关 的 网 页 海洋 所 淹没 。PageRank 的 确 是 一 
块 算法 瑰宝 ， 能 让 针 受 不 费力 地 冒 到 章 霖 的 顶端 。 


公 钥 加 密 
一 一 用 明信片 传输 秘密 


谁 知道 我 这 些 最 隐秘 的 事情 ? 它们 就 藏 在 这 个 世界 中 。 


一 一 鲍 勃 : 迪 伦 ， 


《 立 约 的 女人 》 (Covenant Woman) 


人 们 喜欢 传 证 ， 也 喜欢 了 解 秘密 。 而 由 于 加 密 的 目的 就 是 传输 秘 
密 ， 所 以 我 们 都 是 天 生 的 密码 员 。 但 人 类 进行 秘密 沟通 要 比 计算 机 容 
易 。 如 果 你 想 向 朋友 透露 一 个 秘密 ， 你 只 需 在 朋友 耳 边 低 声 说 就 行 。 
计算 机 要 做 到 这 一 点 就 不 那么 容易 了 。 一 台 计 算 机 没有 办 法 “ 低 声 * 癌 
另 一 台 计 算 机 透露 一 张 信 用 卡 的 卡号 。 如 果 计 算 机 由 互联 网 相连 ， 它 
们 控制 不 了 信用 卡 卡 号 的 流向 ， 也 无 法 控制 会 有 哪些 计算 机 知道 卡 
号 。 在 本 章 ， 我 们 会 探究 计算 机 如 何 应 对 这 一 问题 一 一 通过 运用 永 i 
都 称 得 上 最 精巧 、 最 具 影 响 力 的 计算 机 科学 思想 之 一 : 公 钥 加 密 
(public key cryptography) 。 


| 
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读 到 这 里 ， 你 也 许 会 想 ， 为 什么 本 章 的 标题 中 会 提 到 “用 明信片 传 
输 秘密 ”? 下 页 图 会 给 出 答案 : 可 以 用 通过 明 信 乒 传输 作为 类 比 ， 以 展 
示 公 和 钥 加 密 的 威力 。 在 现实 生活 中 ， 如 琳 你 想 要 发 送 一 份 机 密 文 件 给 
某 人 ， 你 目 然 会 在 发 送 前 将 文件 封存 在 一 个 安全 的 密封 的 信封 内 。 这 
并 不 能 保证 机 密 性 ， 但 却 是 正确 方向 上 的 一 个 合理 步骤 。 相 反 ， 如 果 
在 发 送 机 密 消 乱 前 ， 将 机 密 信 息 写 在 明信片 背面 ， 很 明显 ， 这 
机 密 性 ， 任 何 一 个 接触 过 明信片 的 人 (比如 邮局 工作 人 员 ) 都 只 
看 明 信 族 ， 束 能 读 到 这 条 消 轧 。 


违背 了 
只 需 查 


这 也 正 是 计算 机 在 互联 网 上 尝试 相互 进行 机 密 通信 时 面临 的 问 
题 。 因 为 互联 网 上 的 所 有 消 恩 都 会 通过 无 数 被 称 为 路 由 万 的 计算 机 ， 
消息 的 内 容 可 以 为 任何 访问 路 由 器 的 人 所 见 ， 而 这 也 包括 庶 在 的 恶意 


鳃 听 者 。 因此， 每 一 块 离开 你 计算 机 并 进入 互联 网 的 数据 ， 就 好 像 写 
在 明信片 上 ! 


互联 网 路 由 如 Amazon.com 服 务 器 
(及 潜在 的 帘 听 者 ) 


明信片 类 比 : 很 显然 ， 通 过 邮政 系统 寄 出 一 张 明 信 片 不 能 保证 明 信 乒 内 容 的 秘密 性 。 基 于 同样 


的 理由 ， 如 果 没 有 恰当 地 加 密 ， 从 你 的 笔记 本 电脑 上 将 一 张 信 用 卡 的 卡号 发 送 给 Amazon.com， 


很 容易 束 会 被 一 名 贸 听 者 完 探 到 。 


针对 这 个 明信片 问题 ， 你 也 许 已 经 想到 了 一 个 快速 补救 方案 。 在 
将 消 忍 写 到 明信片 上 之 前 ， 为 什么 我 们 不 使 用 密码 对 每 条 消 轧 进行 加 
密 呢 ?实际 上 ， 如 果 你 已 经 知道 接收 明信片 的 人 ， 这 个 方法 还 能 奏 
效 ， 因 为 在 过 去 某 个 时 刻 ， 你 们 束 使 用 哪 种 密码 已 经 达成 一 怪 。 真正 
的 问题 出 现在 你 给 不 认识 的 人 寄 明 信 厂 时 。 如 果 你 在 明信片 上 使 用 密 
码 ， 邮 局 工作 人 员 束 不 能 读 取 你 的 请 轧 ， 收 信人 当然 也 不 能 ! 公 铀 加 
密 的 真正 威力 在 于 ， 它 允许 你 应 用 只 有 接收 方才 能 解密 的 密码 一 一 除 
非 你 不 能 天 使 用 哪 种 密码 达成 一 致 。 


注意 ， 计 算 机 在 和 不 “认识 ”的 接收 方 通信 时 会 面临 相同 的 问题 。 
比如 ， 你 第 一 次 用 信用 卡 在 Amazon.com 上 购物 时 ， 你 的 计算 机 必须 将 
你 的 信用 卡 卡 吕 传输 给 亚马逊 的 服务 历 。 但 你 的 计算 机 之 前 从 未 和 亚 
马 逮 的 服务 絮 联 系 过 ， 因 此 这 两 台 计 算 机 在 过 去 没有 机 会 就 密 码 达 成 
一 致 。 而 它们 之 则 竹 试 达成 的 任何 协议 都 会 被 互联 网 上 所 有 的 路 由 器 
注意 到 。 


让 我 们 回 到 明信片 的 类 比 。 的 确 ， 这 种 情况 听 起 来 像 个 悖 论 ， 接 
收 方 看 到 的 信息 和 邮局 工作 人 员 看 到 的 一 样 ， 但 接收 方 却 有 某 种 手段 


能 解码 消息 ， 而 邮局 工作 人 员 却 没有 这 种 手段 。 公 钥 加 密 为 这 一 悖 论 
提供 了 一 个 解决 方案 。 本 章 将 解释 其 工作 原理 。 


用 共 圣 密 钥 加 
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让 我 们 从 一 个 非 第 简单 的 思想 实验 开始 。 我 们 将 放弃 明 信 乒 类 
比 ， 用 一 些 更 简单 的 来 代 蔡 : 在 一 个 房间 内 的 口头 交流 。 具 体 情 况 
古 ， 你 和 朋友 阿诺德 以 及 敌人 伊 天 竺 在 一 个 房间 里 。 你 想 要 秘密 地 传 
输 一 条 消息 给 阿诺德 ， 但 又 不 能 让 伊 关 理解 这 条 消息 。 这 条 消息 可 能 
征 一 张 信 用 卡 的 卡号 ， 但 为 方便 起 见 ， 假 设 这 是 一 个 极其 短 的 信用 卡 
卡号 ， 只 是 1 到 9 之 间 的 一 个 数字 。 而 你 只 能 通过 大 声 说 话 和 阿诺德 联 
系 ， 好 让 伊 天 听 到 。 不 得 偷偷 措 探 地 页 小 把 戏 ， 比 如 小 声 说 或 传 纸 


条 。 


具体 来 说 ， 让 我 们 假设 你 试图 传输 的 信用 卡 卡 号 为 7。 有 一 种 方法 
可 以 让 你 达成 目标 : 站 和 完 ， 壬 试想 一 些 阿诺德 知道 而 伊 天 不 知道 的 数 
字 ; 比如 ， 你 和 阿诺德 成 为 朋友 很 人 了 ， 从 孩提 时 整 生 活 在 同一 条 街 
上 上。 事实 上 ,假设 你 俩 经 党 在 你 家 前 院 玩 要 , 1] 牌号 古 恰 快 街 322 号 。 
其 次 ， 假 设 伊 天 并 不 是 从 小 束 认 识 你 ， 特 别 古 她 不 知道 你 和 阿诺德 过 
去 经 常 玩 要 的 房屋 地 址 。 你 就 能 对 阿诺德 说 :“ 咖 ， 阿 诺 德 ， 记 得 我 在 
愉快 街 的 家 的 门牌 号 吗 ? 我 们 过 去 一 起 玩 变 的 地 方 。 如 有 果 你 用 门牌 
号 ， 加 上 我 现在 想到 的 信用 卡 卡号 中 的 一 个 数 ， 你 会 得 到 329。” 


加 密 的 消息 ; 329 


共享 密 钥 322 相 加 ， 消 息 7 被 加 密 了 。 阿 诺 德 可 以 通过 减 去 共享 密 钥 


通过 将 消息 7 不 


Tl 


相 加 把 戏 : 


Ex 
次 


提取 消息 7， 但 伊 天 却 不 能 


现在 ， 只 要 阿诺德 能 正确 地 记得 房屋 门牌 号 ， 他 束 可 以 通过 将 你 
告诉 他 的 尽数 329 和 房屋 门 脾 号 相 减 ， 得 到 信用 卡 卡 号 。 他 用 329 减 去 
322 得 7， 这 也 是 你 试图 向 他 传输 的 信用 卡 卡 号 。 同 时 ， 仇 天 却 不 知道 
信用 卡 卡 号 是 多 少 ， 尺 管 她 能 昕 到 你 跟 阿 诺 德 说 的 每 个 词 。 上 图 显示 
了 整个 过 程 。 


为 什么 这 种 方法 能 雪 效 ? 因为 你 和 阿 诺 伪 有 一 样 东西 ， 也 就 是 计 
算 机 科学 家 们 所 谓 的 共享 密 钥 ， 数字 322。 因 为 你 俩 都 知道 这 个 数字 ， 
但 伊 天 却 不 知道 ， 你 可 以 使 用 这 个 共享 密 钥 秘密 地 传输 任何 数 子 ， 只 
要 和 共享 密 钥 相 加 ， 说 出 总 数 ， 让 男 一 方 减 去 共享 密 钥 即 可 。 听 到 总 
数 对 伊 天 没有 任何 用 处 ， 因 为 她 不 知道 要 减 去 哪个 数字 。 


不 管 你 是 否 相 信 ， 如 琳 理 解 了 这 个 简单 的 “ 相 加 把 戏 ” 一 一 将 一 个 
共享 密 钥 和 如 一 张 信 用 卡 的 卡号 这 类 私人 消息 相 加 一 一 你 就 理解 了 互 
联网 上 绝 大 多 数 加 蜜 真正 的 运作 原理 ! 计算 机 不 断 地 运用 着 这 一 把 
戏 ， 但 要 真正 实现 保密 性 ， 还 有 一 些 细节 需要 注意 。 


首先 ， 计 算 机 使 用 的 共享 密 钥 要 比 房屋 门牌 号 322 长 很 多 。 如 果 密 
钥 太 短 ， 任 何 完 听 对 话 的 人 都 可 以 试 表 所 有 可 能 性 。 比 如 ， 假 设 我 们 
使 用 相 加 把 戏 ， 用 一 个 3 位 数 房屋 门牌 号 来 加 密 一 个 真正 的 16 位 效 信用 
卡 卡 号 。 注 意 ，3 位 数 房屋 门牌 号 有 999 种 可 能 ， 那 么 像 伊 天 这 样 鲫 听 
了 对 话 的 敌人 可 以 列 出 一 个 包含 所 有 999 个 可 能 数字 的 表 ， 而 其 中 肯定 
有 一 个 数字 是 信用 卡 卡 号 。 而 计算 机 几乎 不 用 费 什 么 时 间 束 能 试 肖 999 
个 信用 卡 卡 号 ， 因 此 为 了 共 至 密 钥 能 起 作用 ， 我 们 需要 用 远 长 于 3 位 数 
的 数字 来 作为 共 译 密 钥 。 


事实 上 ， 当 你 听 到 茶 种 加 密 古 一 个 特定 位 数 的 数字 ， 比 如 “128 位 
加 密 ”， 这 实际 上 说 的 是 共享 密 钥 的 长 度 。 共 享 密 钥 通常 被 称 为 “ 钥 ”， 
征 因 为 它 能 用 于 解锁 或 "解密 ”一 条 消 轧 。 如 采 你 解 开 了 钥 古 数位 的 


30%， 这 也 就 告诉 了 你 钥 十 的 大 致 数位 。 因 为 128 的 30% 大 约 是 38， 我 
们 就 知道 128 位 加 密使 用 的 钥匙 是 一 个 38 位 的 数 填 。 一 个 38 位 数 要 比 10 
的 36 次 方 还 要 大 ， 而 又 因为 这 需要 任何 现存 的 计算 机 花费 数 十 亿 年 时 
间 来 试 般 这 么 多 可 能 性 ， 一 个 38 位 数 的 共享 密 钥 被 认为 非常 安全 。 


这 个 商 单 相 加 把 戏 要 在 现实 生活 中 奏效 还 要 克服 一 个 困难 : 加 法 
得 出 的 结果 能 用 于 统计 分 析 ， 这 意味 着 一 些 人 能 通过 分 析 大 量 你 的 加 
密 消 息 来 得 到 钥匙 。 相 反 ， 被 称 为 “分 块 密码 ” (block cipher) 的 现代 加 
密 技 术 使 用 了 相 加 把 戏 的 变 体 。 


首先 ， 长 消 恩 被 分 解 成 固定 大 小 (通常 是 10~15 个 字母 ) 的 
小 “ 块 ”。 其 次 ， 和 人 简单 地 将 一 块 消 忍 与 钥 古 相 加 不 同 的 是 ， 每 个 块 都 
会 根据 一 系列 固定 规则 转换 数 次 。 这 些 规 则 类 似 于 加 法 ， 但 会 让 消 尽 
和 钥 古 更 紧密 地 混合 在 一 起 。 比如， 规则 可 以 是 “将 钥 古 的 前 半 部 分 和 
这 块 消息 的 后 半 部 分 相 加 ， 倒 置 结 果 ， 再 将 钥匙 的 第 二 部 分 和 这 块 消 
轧 的 前 半 部 分 相 加 "一 一 不 过 在 现实 中 ， 这 些 规则 要 更 加 复杂 一 些 。 现 
代 分 块 密码 基本 上 会 进行 10“ 轮 ”或 更 多 类 似 操作 ， 即 操作 列表 会 被 反 
复 应 用 。 在 转换 的 轮 数 足 够 多 时 ， 原 始 消 乱 会 真正 地 混合 好 ， 并 能 抵 
御 统 计 攻 击 ， 但 任何 知道 钥 古 的 人 者 能 用 相反 的 步骤 运行 所 有 操作 ， 
以 获得 最 初 的 解密 的 消 晨 。 


在 写作 本 书 时 ， 最 流行 的 分 块 密码 是 高 级 加 密 标准 (Advanced 
Encryption Standard ) ， 或 称 AES。AES 能 配合 多 种 不 同 配置 使 用 ， 但 


标准 配置 是 使 用 16 个 字母 的 块 ， 配 备 128 位 密 钥 ， 进 行 10 轮 混合 操作 。 


到 目前 为 止 ， 一 切 情况 民 好 。 我 们 已 经 知道 互联 网 上 绝 大 多 数 加 
密 拉 术 的 运作 原理 :将 消 居 分 成 块 ， 使 用 加 法 把 戏 变 体 加 密 每 个 块 。 
但 这 十 加 密 简单 的 地 方 。 难 点 在 于 一 开始 要 建立 一 个 共享 密 钥 。 在 上 
面 的 例子 中 ， 在 你 和 阿 诡 德 及 伊 天 竺 的 房间 里 ， 其 实 我 们 做 点 了 站 
一 一 我 们 利用 了 你 和 阿诺德 从 小 玩 到 大 的 事实 ， 因 此 阿诺德 知道 共享 
密 钥 (你 家 的 房屋 门牌 号 ) 而 伊美 不 可 能 知道 。 如 果 你 、 阿 庄 德 和 伊 
天 都 吓 卫生 人 ， 我 们 怎么 玩 同 样 的 游戏 ? 你 有 没有 办 法 和 阿诺德 建立 
一 个 伊 关 不 知道 的 共享 密 钥 ? 《〈 记 住 ， 不 能 作弊 一 一 你 不 能 低 声 跟 阿 
诺 德 说 任何 事情 或 给 阿诺德 一 张 伊 天 看 不 到 的 纸 条 。 所 有 沟通 都 必须 
AAA 


乍 一 看 ， 要 做 到 这 一 点 似乎 不 可 能 ， 但 还 是 有 个 精巧 的 办 法 能 解 
决 这 个 问题 。 计 算 机 科学 家 们 称 这 一 解决 方案 为 迪 菲 一 赫 尔 曼 密 钥 交 
换 (Diffie-Hellman key exchange) ， 但 我 们 把 它 称 作 颜 料 混合 把 戏 


(paint-mixing trick) 。 


颜料 混合 把 戏 


要 理解 这 一 把 戏 ， 我 们 先 不 管 传输 信用 卡 卡号 的 事 ， 而 是 假设 你 
想 要 分 享 的 密 钥 是 一 种 特殊 颜色 的 颜料 。 (的 确 ， 这 有 点 诡异 ， 但 我 
们 很 快 会 看 到 ， 用 这 种 方法 来 思考 这 个 问题 非常 有 用 。) 现在 假设 你 
和 阿 话 德 、 伊 天 行 在 一 个 房间 内 ， 每 人 都 有 大 量 不 同 的 闫 料 彬 。 你 们 
都 拥有 相同 的 闫 色 选 择 一 一 有 多 种 不 同 闫 色 ， 每 个 人 部 拥有 多 桶 相同 
颜色 的 闫 料 。 这 样 束 不 存在 用 完 关 料 的 问题 了 。 每 一 桶 颜料 都 清楚 地 
标示 了 其 闫 色 ， 因 此 在 具体 指导 其 他 人 混合 不 同 颜 色 的 凑 料 上 束 很 容 
易 了 : 你 只 要 说 些 如 “将 一 桶 ‘天 蓝 色 ' 颜 料 和 六 桶 ' 淡 贰 蚀 色 ;颜料 以 及 五 
桶 “ 怕 绿 色 :颜料 混 合 在 一 起 ?的话 即 可 。 但 在 每 一 块 已 知 的 色 板 
(shade) 上 都 有 上 百 或 上 千 种 颜色 ， 因 此 ， 不 可 能 只 通过 看 颜色 就 知 
道 其 中 混合 了 哪些 具体 的 颜色 。 而 且 也 不 可 能 通过 试镜 发 现 混合 颜色 
中 加 入 了 哪些 具体 的 颜色 ， 因 为 可 以 笑 试 的 颜色 太 多 了 。 


现在 要 改变 一 下 游戏 规则 。 你 们 三 人 各 占据 房屋 的 一 角 ， 每 个 角 
落 都 出 于 隐私 考虑 加 以 屏障 ， 你 可 以 在 其 中 存放 颜料 ， 在 其 他 人 看 不 
到 的 情况 下 混合 颜料 。 但 沟通 规则 和 之 前 一 样 : 在 你 、 阿 庄 伪 和 伊 天 
之 间 的 任何 沟通 都 必须 公开 。 你 不 能 邀请 阿 族 德 进入 你 的 私人 混合 区 
域 ! 另 一 条 规则 规定 了 你 分 享 颜料 混合 配方 的 方式 。 你 可 以 给 屋内 其 
他 人 一 批 颜 料 ， 但 只 能 把 颜料 放 到 房间 中 央 的 地 板 上 ， 等 其 他 人 来 捡 
起 它 。 这 也 意味 着 ， 你 永远 也 不 能 确定 谁 会 扒 起 你 放 的 颜料 。 最 好 的 
办 法 是 ， 为 每 个 人 提供 足够 多 的 颜料 ， 然 后 在 房间 中 央 留 下 数 批 分 开 
的 颜料 。 这 样 ， 任 何 想 要 你 颜料 的 人 都 可 以 合 了 到。 这 条 规则 其 实 只 是 


所 有 沟通 都 必须 公开 的 补充 : 如 采 你 给 了 阿 谤 德 某 种 混合 颜料 ， 却 没 
有 给 伊 天 ， 你 束 和 阿诺德 进行 了 某 种 “私密 ”沟通 ， 这 违反 了 规则 。 


记 住 ， 这 个 颜料 混合 游戏 则 在 解释 如 何 建 立 一 个 共享 密 钥 。 在 这 
时 ， 你 也 许 在 想 混 合 颜料 和 加 密 有 什么 关系 ， 请 不 要 着 急 。 你 将 了 解 
到 一 个 令 人 尺 奇 的 把 戏 ， 计 算 机 使 用 这 一 把 戏 在 像 互联 网 这 样 的 公共 


场合 建立 共享 密 钥 | 


首先 ， 我 们 要 知道 这 个 游戏 的 目标 。 目 标 是 让 你 和 阿 诸 德 都 能 制 
作 相 同 的 混合 颜料 ， 而 不 能 让 伊 天 知道 如 何 生 产 。 如 采 你 达成 了 这 一 
目标 ， 我 们 就 能 说 你 和 阿 诡 德 建立 了 一 种 “共享 的 秘密 混合 颜料 ”。 你 
可 以 随心 所 欲 地 进行 尽 可 能 多 的 公开 对 话 ， 你 也 可 以 携 市 颜料 桶 多 次 
往返 于 房间 中 央 及 你 的 私人 混合 区 域 之 间 。 


现在 我 们 要 开始 探访 公 和 钥 加 密 背 后 精巧 思想 的 旅程 了 。 我 们 的 颜 


料 混 合 把 戏 分 为 四 步 : 


第 一 步 ， 你 和 阿诺德 各 自选 择 一 种 “私人 颜色 *。 


你 的 私人 颜色 与 你 最 终 将 制造 的 共享 秘密 混合 颜料 不 同 ， 但 它 将 
征 共享 秘密 混合 颜料 的 成 分 之 一 。 你 可 以 选择 任何 一 种 颜色 作为 私人 
颜料 ， 但 你 必须 记 住 这 种 颜色 。 很 显然 ， 你 的 私人 颜色 几乎 肯定 会 和 


阿 诗 德 的 私人 颜色 不 同 ， 因 为 可 供 选 择 的 颜色 太 多 了 “。 假 设 你 选 了 淡 
紫色 作为 私人 颜色 ， 阿 庄 德 选 了 深 红 色 作 为 私人 颜色 。 


第 二 步 ， 选 择 一 种 新 的 不 同 的 颜色 成 分 并 公开 宣布 ， 我 们 称 
这 种 颜色 为 “公开 颜色 ” 。 


和 之 前 一 样 ， 你 可 以 选择 任何 颜色 。 假 设 你 宣布 的 公开 颜色 是 秩 
和 殴 黄 。 注 意 只 能 有 一 种 公开 颜色 《而 不 是 你 和 阿诺德 各 选 一 种 公开 颜 
色 ) ， 伊 天 自然 也 知道 这 种 公开 颜色 ， 因 为 你 公开 宣布 了 。 


三 步 : 你 和 阿 诸 德 各 用 一 棚 公 开颜 色 和 一 彬 私人 颜色 制造 
一 种 混合 颜色 。 这 吏 是 你 的 “公开 一 私人 寓 合 颜色 ”。 


很 显然 ， 阿 庄 德 的 公开 一 私人 混合 颜色 会 和 你 的 不 同 ， 因 为 他 的 
私人 颜色 和 你 的 不 同 。 如 采 继 续 使 用 上 面 的 例子 ， 你 的 公开 一 私人 混 
合 颜 色 会 包含 一 桶 痰 紫色 和 一 桶 锥 菊 黄 ， 而 阿诺德 公开 一 私人 混合 颜 
色 会 包含 一 桶 深 红 色 和 一 桶 雏菊 黄 。 


到 这 时 ， 你 和 阿 诡 德 会 想 给 彼此 公开 一 私人 混合 颜色 的 样品 ， 但 
记 住 ， 直 搂 给 房间 中 一 个 人 混合 颜料 是 违反 规则 的 。 给 其 他 人 一 种 混 
合 颜 色 的 唯一 方法 是 制作 数 批 该 种 颜料 ， 并 把 它们 放 到 房间 中 央 ， 以 
便 任 何 想 要 的 人 拿 了 到。 这 也 正 是 你 和 阿诺德 所 做 的 : 你 们 俩 都 制作 数 


批 公开 一 私人 混合 颜色 ， 并 把 它们 放 到 房间 中 央 。 如 果 伊 天 想 要 的 
话 ， 她 可 以 偷 走 一 到 两 批 ， 但 我 们 很 快 瑟 会 了 解 到 ， 这 些 颜 料 对 伊 天 
没有 任何 用 处 。 下 页 的 图 显示 了 颜料 混 合 把 戏 第 三 步 之 后 的 情况 。 


现在 到 达 关 键 点 了 。 如 有 条 在 这 时 仔细 想 一 会 儿 ， 你 可 能 会 知道 最 
后 的 把 戏 会 让 你 和 阿诺德 制造 出 同一 种 共享 的 秘密 混合 颜色 ， 而 不 让 
伊 天 知道 秘密 。 答 案 如 下 : 


你 的 私人 颜色 


颜料 混合 把 戏 第 三 步 : 任何 想 : 


:的 人 都 可 以 拿 取 公开 一 私人 


你 的 公开 -私人 阿诺德 的 公开 一 私人 


阿 诸 德 的 私人 颜色 


合 颜色 。 


第 四 步 : 你 选取 一 批 阿 族 德 的 公开 一 私人 混合 颜色 ， 拿 回 上 自 
己 的 角落 。 现 在 加 入 一 桶 私人 闫 色 。 同 时 ， 阿 庄 德 选取 一 批 你 的 


公开 一 私人 混合 颜色 ， 拿 回 他 的 角落 ， 在 那里 他 再 加 入 一 桶 他 的 
私人 颜色 。 


神奇 吧 ， 你 俩 制作 了 同样 的 袍 合 颜色 ! 让 我 们 来 检验 一 下 : 你 将 
自己 的 私人 颜色 〈 淡 紫色 ) 加 入 阿诺德 的 公开 一 私人 混合 颜色 〈 深 红 
色 和 雏菊 黄 ) ， 得 到 的 最 终 混合 颜色 是 : 一 桶 淡 紫 色 、 一 桶 深 红色 和 
一 桶 雏菊 黄 。 阿 诡 德 最 终 得 到 的 袍 合 颜 色 昵 ? 他 将 目 己 的 私人 颜色 
( 深 红色 ) 加 入 你 的 公开 一 私人 混合 颜色 〈 淡 紫色 和 雏菊 黄 ) ， 得 到 
的 最 终 混合 颜色 是 : 一 桶 深 红色 、 一 桶 痰 紫色 和 一 桶 锥 菊 黄 。 这 正和 
你 得 到 的 最 终 寓 合 颜 色 一 样 ， 也 恰好 是 一 种 共享 秘密 混合 颜色 。 下 页 
的 图 显示 了 颜料 混合 把 戏 最 后 一 步 的 情形 。 


颜料 混合 把 戏 第 四 步 : 


具 持 蕊 全 阿诺德 的 
应 色 二 


只 有 你 和 阿诺德 能 制作 这 种 


享 秘 密 颜 色 ， 如 箭头 所 示 组 合 混合 颜色 。 


那 伊 天 呢 ? 为 什么 她 不 能 制作 一 份 这 种 共享 秘密 混合 颜色 呢 ? 原 
因 是 她 不 知道 你 或 阿 话 德 的 私人 颜色 ， 而 她 至 少 需要 其 中 一 种 来 制作 

享 秘密 宴 合 颜色 。 你 和 阿 诡 德 打败 了 她 ， 因 为 你 从 未 在 房间 中 央 公 
开 过 目 己 的 私人 颜色 。 相 反 ， 你 在 公开 前 将 目 己 的 私人 颜色 和 公开 颜 
色 混 合 在 一 起 ， 而 伊 天 没有 办 法 “分 开 ” 公 开 一 私人 混合 颜色 ， 也 器 不 
能 获得 其 中 一 种 私人 颜色 的 纯正 样本 。 


因此 ， 伊 天 只 能 获取 两 种 公开 一 私人 混合 颜色 。 如 末 她 将 一 桶 你 
的 公开 一 私人 混合 颜色 和 一 桶 阿 诸 德 的 公开 一 私人 混合 颜色 混合 
起 ， 结 东 生 包含 了 一 彬 深 红 色 、 一 棚 痰 么 色 和 两 桶 雏 簿 黄 。 换 句 话 
说 ， 和 共享 秘密 混合 颜色 相 比 ， 伊 天 的 混合 颜色 多 了 一 份 稚 菊 黄 。 她 
的 得 合 颜色 太 黄 了 ， 而 因为 没有 办 法 “分 开 ?” 颜 料 ， 她 不 能 移 除 多 余 的 
黄色 。 你 也 许 会 想 ， 伊 天 可 以 通过 加 入 更 多 深 红 色 和 淡 紫 色 来 达到 有 目 
的 ， 但 要 记 住 ， 伊 天 不 知道 你 的 私人 颜色 ， 因 为 她 不 会 知道 这 些 颜色 
还 需要 加 入 的 颜色 。 她 只 能 加 入 深 红色 配 和 雏菊 黄 的 组 合 或 淡 紫 色 配 雏 
菊 黄 的 组 合 ， 而 这 会 导致 她 的 混合 闫 色 太 黄 。 


用 数字 进行 闫 料 混 合 把 戏 


如 果 你 理解 了 闫 料 混 合 把 戏 ， 你 束 会 理解 计算 机 在 互联 网 上 建立 
共享 密 钥 的 核心 机 制 。 当 然 ， 它 们 并 不 真 的 使 用 颜料 。 计 算 机 使 用 数 
字 ， 而 要 混合 数 子 ， 它 们 会 运用 数学 。 计 算 机 实际 使 用 的 数学 并 不 会 


太 复 杂 ， 但 也 复杂 到 让 人 第 一 眼看 上 去 就 会 感到 困惑 。 因 此 ， 作 为 理 
解 共 至 密 钥 如 何在 互联 网 上 建立 的 下 一 步 ， 我 们 将 用 到 一 些 “ 伪 装 ” 数 
学 。 真 正 的 要 点 在 于 ， 要 将 颜料 混合 把 戏 转化 成 数字 ， 我 们 需要 一 种 
单 向 操作 (one-way action) : 可 以 做 一 些 事 情 ， 但 不 能 取消 做 过 的 
事 。 颜 料 混 合 把 戏 中 的 单 同 操作 是 “ 宴 合 颜料 ”。 将 一 些 颜 料 宰 合 起 来 
形成 一 种 新 颜色 很 容易 ， 但 要 “分 开 ” 它 们 并 获得 原来 的 颜料 则 不 可 
能 。 这 也 起 为 什么 颜料 混合 是 单 问 操作 的 原因 。 


我 们 在 前 面 提 到 过 ， 将 会 用 到 一 些 伪装 数学 。 下 面 就 是 我 们 要 伪 
装 的 : 将 两 个 数 相 乘 是 一 项 单 向 操作 。 我 敢 肯 定 ， 你 已 经 意识 到 了 ， 
这 绝对 是 个 借口 。 乘 法 的 反面 是 除法 ， 只 需要 用 除法 就 能 惊奇 地 取消 
乘法 。 比 如 ， 如 果 我 们 从 数字 5 开始 ， 然 后 乘 以 7， 得 到 35。 要 取消 这 
个 乘法 很 容易 ， 只 要 从 35 开 始 ， 除 以 7 就 可 以 了 。 这 会 得 到 我 们 一 开始 
时 的 数字 5。 


但 除 此 以 外 ， 我 们 将 坚持 使 用 这 一 盆 猴 ， 在 你 、 阿 诺 德 和 伊 天 之 
间 玩 另 一 个 游戏 。 这 一 次 ， 我 们 将 假设 你 们 都 知道 如 何 将 数 相 乘 ， 但 
你 们 都 不 知道 如 何 用 一 个 数 除 以 男 一 个 数 。 目 标 和 前 面 的 游戏 几乎 一 
样 : 你 和 阿诺德 试图 建立 一 个 共享 密 钥 ,但 这 次 共 至 密 钥 将 是 一 个 
数 ， 而 非 一 种 颜料 。 此 前 的 沟通 规则 也 适用 : 所 有 联系 必须 公开 进 
行 ， 这 样 伊 天 束 能 听 到 你 和 阿诺德 之 间 的 任何 对 话 。 


好 ， 现 在 我 们 要 做 的 事情 丈 是 将 颜料 混合 把 戏 转换 成 数字 : 


第 一 步 ， 和 选择 一 种 "私人 颜色 ”不 同 的 是 ， 你 和 阿诺德 选择 
一 个 “私人 数字 *。 


假设 你 选择 了 4， 阿 诺 德 选择 了 6。 现 在 回想 颜料 混合 把 戏 剩余 的 
步 又 : 宣布 公开 颜色 ， 制 作 公开 一 私人 寓 合 颜色 ， 公 开 地 将 你 的 公开 
一 私人 混合 颜色 与 阿诺德 的 公开 一 私人 混合 颜色 交换 ， 最 后 将 你 的 私 
人 颜色 加 入 阿诺德 的 公开 一 私人 混合 凑 色 ， 以 获得 共享 秘密 颜色 。 要 
理解 如 何 将 这 些 步 又 转换 成 数字 ， 并 用 乘法 作为 单 癌 操作 取代 颜料 混 
合 也 不 至 于 太 难 。 在 继续 往 下 读 之 前 ， 花 几 分 钟 看 看 你 能 人 否 目 行 理解 
全 村 


齐 照 这 个 解决 方案 并 不 太 难 ; 你 和 阿 庄 德 都 选择 了 目 己 的 私人 效 


字 (4 和 6) ， 下 一 步 就 是 : 


第 二 步 : 你 们 其 中 一 个 人 宣布 “公开 数字 ”( 取 代 颜 料 混合 把 
戏 中 的 公开 颜色 ) 。 
假设 你 选择 了 7 作为 公开 数 子 。 


颜料 混合 把 戏 的 下 一 步 是 制作 一 份 公开 一 私人 寓 合 颜色 。 但 我 们 
已 经 决定 ， 用 将 数字 相 乘 来 代 符 混合 颜料 。 因 此 ， 你 要 做 的 束 息 : 


第 三 步 : 将 你 的 私人 数字 〈4) 和 公开 数字 (7) 相 乘 ， 得 
到 “公开 一 私人 数字 ”28。 


你 可 以 公开 地 宣布 ， 这 样 阿 诡 德 和 伊 天 天 都 知道 了 你 的 公开 一 私 
人 数字 是 28 〈 无 须 再 携带 颜料 桶 了 ) 。 阿 诺 德 对 自己 的 私人 数字 做 了 
同样 的 事 : 他 将 目 己 的 私人 数字 和 公开 数字 相 乘 ， 并 宣布 他 的 公开 一 
私人 数 子 是 42。 下 面 的 图 显示 了 整个 流程 到 达 这 一 点 的 情形 。 


你 的 公开 一 私人 数字 。 阿 读 往 的 会 开 一 私人 数字 


ST 


你 的 私人 阿诺德 的 私人 
数字 数字 


还 记得 颜料 混合 把 戏 的 最 后 一 步 吗 ? 你 拿 走 阿诺德 的 公开 一 私人 
混合 颜色 ， 加 入 一 桶 你 的 私人 颜色 ， 以 制作 共享 秘密 颜色 。 这 里 发 生 
的 事情 也 一 借 一 样 ， 用 乘法 代 蔡 颜料 袖 合 : 


第 四 步 : 你 把 阿诺德 的 公开 一 私人 数字 (42) 和 你 的 私人 数 
字 (4) 相 乘 ， 结 果 是 共享 秘密 数字 168 。 


同时 ， 阿 诡 德 用 你 的 公开 一 私人 数字 28 和 他 的 私人 数字 6 相 乘 ， 并 
令 人 惊讶 地 得 到 了 共 至 秘密 数 子 168。 最 终结 来 显示 在 下 图 中 。 


你 的 公开 一 私人 数字 


你 的 私人 
数字 


数字 混合 把 戏 第 四 步 : 


有 你 和 阿诺德 能 得 到 共享 密 


I 


亲 计 和 的 人 开 一 私人 数字 


< 


阿 庄 德 的 私人 


字 ， 通 过 将 途 


箭头 所 示 的 数字 相 


事实 上 ， 当 你 用 正确 的 方法 思考 时 ， 这 一 点 都 不 令 人 惊讶 。 阿 诺 
德 和 你 都 制作 出 了 相同 的 共享 秘密 颜色 的 原因 是 ， 你 将 相同 的 三 种 原 
颜色 混合 在 了 一 起 ， 但 却 使 用 不 同 的 顺序 .你 俩 各 自 保 留 了 一 种 私 
人 颜色 ， 把 它 和 由 其 他 两 种 颜料 组 成 的 公开 混合 颜料 组 合 在 一 起 。 同 
样 的 事 也 发 生 在 数字 上 “。 你 俩 通过 将 同样 的 三 个 数 4、6 和 7 相 乘 ， 得 到 
了 相同 的 共享 密 钥 。 《你 可 以 自己 查证 ，4x 6x7= 168。) 但 你 之 所 
以 能 达到 这 一 目标 ， 古 通过 用 私人 数 子 4 和 由 6 乘 7 得 出 的 公开 混合 奖 
相 乘 ) 得 出 的 ， 而 阿诺德 也 宣布 了 这 个 混合 数字 。 另 一 方 

全 


Le 六 SN 
字 “ 混 合 ” 


乘 ) 得 出 共享 密 钥 ， 而 你 也 宣布 了 这 个 混合 数字 。 


就 和 我 们 在 颜料 混合 把 戏 中 做 的 一 样 ， 让 我 们 来 验证 伊美 不 能 得 
到 共享 密 钥 。 每 个 公开 一 私人 数字 的 值 在 宣布 时 都 能 被 伊 关 听 到 。 她 
听 到 你 说 28， 阿 详 德 说 42。 她 还 知道 公开 数字 是 7。 因 此 ， 如 果 伊 闫 知 
道 如 何 做 除法 ， 她 惑 能 马上 知道 你 所 有 的 密 钥 ， 只 需要 观察 到 28 = 7 = 
4 和 42=7= 6 即 可 。 而 她 可 以 继续 通过 计算 4x 6 x 7= 168 算 出 共享 密 
铀 。 不 过 ， 季 运 的 是 ， 我 们 在 游戏 中 使 用 的 是 伪装 数学 : 我 们 假设 乘 
法 是 一 种 单 向 操作 ， 因 此 伊美 不 知道 如 何 相 除 。 于 是 她 被 数字 28、42 
和 7 难 住 了 。 她 可 以 将 其 中 一 些 数 相 乘 ， 但 结果 和 共享 密 钥 无 关 。 比 
如 ， 如 果 她 将 28 x 42 = 1176， 那 整 大 错 特 错 了 。 就 和 颜料 混合 游戏 中 
她 的 结果 太 黄 了 一 样 ， 在 这 里 ， 她 的 结果 中 有 太 多 7。 共 享 密 钥 中 只 有 
一 个 7， 因 为 168 = 4x6x7。 但 伊 天 想 要 破解 密 钥 的 要 素 中 有 两 个 7， 


为 1 176 = 4x6x7x7。 而 且 她 还 没有 办 法 去 掉 多 余 的 7， 因 为 她 不 知 
道 如 何 做 除法 。 


现实 生活 中 的 颜料 混合 把 戏 


我 们 现在 已 经 讲 完 了 计算 机 在 互联 网 上 建立 共享 密 钥 所 需 的 所 有 
基本 概念 。 使 用 数字 的 颜料 混合 机 制 的 唯一 缺陷 是 ， 它 使 用 的 是 “伪装 
数学 ”， 在 其 中 我 们 假设 没有 任何 一 方 能 做 除法 。 要 完成 整个 流程 ， 我 
们 需要 一 个 在 现实 生活 中 容易 做 到 (比如 颜料 混合 ， 但 在 实际 中 又 
不 可 能 取消 (比如 分 离 颜料 ) 的 数学 操作 。 当 计算 机 在 现实 生活 中 进 
行 这 些 操作 时 ， 混 合 操作 就 是 离散 指数 (discrete exponentiation) ， 而 
分 离 操作 则 被 称 为 离散 对 数 (discrete logarithm) 。 由 于 还 没有 一 种 方 
法 能 让 计算 机 高 效 地 计算 离散 对 数 ， 离 散 指数 就 成 了 我 们 寻找 的 那 类 
单 问 操作 。 要 恰当 地 解释 离散 指数 ， 我 们 需要 两 个 简单 的 数学 概念 。 
我 们 还 需要 写 几 个 公式 。 如 有 果 你 不 喜欢 公式 ， 请 直接 忽略 余下 的 部 分 
你 几乎 了 解 了 和 这 个 主题 有 关 的 所 有 东西 。 男 外 ， 如 琳 你 真 的 想 
知道 计算 机 如 何 做 这 件 神奇 的 事 ， 接 着 往 下 读 。 


我 们 需要 的 第 一 个 重要 的 数学 概念 被 称 为 钟 算 (clock 
arithmetic) 。 这 倒是 我 们 都 熟悉 的 东西 : 钟 上 有 12 个 数字 ， 每 次 当时 
针 路 过 12 时 ， 部 会 从 1 开始 重新 计数 。 一 个 从 10 操 钟 开始 、 持 续 4 小 时 
的 活动 会 在 2 点 钟 结 束 ， 也 束 古 说 ， 在 这 个 12 小 时 钟 系统 中 ，10+4 = 


2。 在 数学 中 ， 钟 算 也 是 这 样 运行 的 ， 除 了 两 个 细节 : (1) 钟 的 大 小 
可 以 是 任何 数 〈 而 非 一 个 普通 的 钟 上 熟悉 的 12 个 数字 ) ， (2) 数字 从 
0 而 不 是 从 1 开始 计数 。 


下 面 图 中 的 例子 用 的 是 大 小 为 7 的 钟 。 注 意 ， 钟 上 的 数字 是 0、1、 
2、3、4、5 和 6。 用 钟 大 小 为 7 的 钟 做 钟 算 ， 只 要 像 平 昔 一 样 将 数字 相 
加 相 乘 即 可 ， 不 过 不 管 结果 如 何 ， 你 只 要 取 除 以 7 所 得 的 余数 即 可 。 计 
算 12 + 6， 我 们 首先 像 平常 一 样 相 加 ， 得 到 18。 人 然后 我 们 注意 到 18 中 有 


两 个 7 ( 即 14) ， 余 4。 因 此 最 终 答 案 是 : 


12+6=4 ( 钟 大 小 为 7) 


在 下 面 的 例子 中 ， 我 们 将 钟 大 小 调 为 11。 ( 稍 后 将 讨论 到 ， 现 实 
应 用 中 的 钟 大 小 要 大 很 多 。 我 们 使 用 小 的 钟 大 小 是 为 了 让 解释 尽 可 能 
简单 。) 在 将 结果 除 以 11 后 取 余 并 不 太 难 ， 因 为 11 的 倍数 都 是 像 66 和 
88 这 样 重复 的 数 。 下 面 是 几 个 用 和 钟 大 小 为 11 进 行 计算 的 例子 : 


7+9+8=24=2 ( 钟 大 小 为 11) 


8x7=56=1 ( 钟 大 小 为 11) 


我 们 需要 的 第 二 个 数学 概念 是 怖 画 数 (power notation) 。 这 个 概 
念 一 点 也 不 花哨 : 丈 是 写 下 许多 相同 数字 相 乘 的 快捷 方法 。 和 写 下 6 x 


6 x 6 x 6 不 同 的 是 ， 你 可 以 写成 646， 这 了 避 定 指 6 乘 以 本 号 4 次 。 你 可 以 将 
几 图 效 和 钟 算 结 合 起 来 。 比 如 : 


34=3x3x3x3=81=4 ( 钟 大 小 为 11) 


72=7x7=49=5 ( 钟 大 小 为 11) 


下 页 的 表格 显示 了 钟 大 小 为 11 时 数字 2、3 和 6 的 前 10 个 蚌 。 这 在 我 
们 将 要 研究 的 例子 中 非常 有 用 。 在 继续 深入 前 ， 请 你 确保 自己 认可 这 
张 表格 的 生成 方式 。 让 我 们 来 看 看 最 后 一 栏 。 这 一 栏 的 第 一 项 是 6， 世 
就 是 61。 下 一 项 代表 6*?， 即 36， 但 由 于 我 们 使 用 的 钟 大 小 为 11，36 比 33 
大 3， 因 此 这 一 项 是 3。 要 计算 这 一 栏 的 第 三 项 ， 你 也 许 会 认为 我 们 要 


计算 @3 = 6 x 6 x 6， 但 有 个 更 简单 的 方法 。 我 们 已 经 用 自己 感 兴趣 的 钟 
大 小 计算 了 6*， 结 果 是 3。 要 得 到 G3， 我 们 只 需要 将 先前 的 结果 乘 6。 也 
就 是 3 x 6= 18=7 ( 钟 大 小 为 11) 。 下 一 项 是 7 x 6= 42 =9 ( 钟 大 小 为 
11) ， 依 此 类 推 ， 直 到 该 栏 最 后 一 项 。 


最 后 ， 我 们 终于 要 准备 建立 一 个 计算 机 在 现实 生活 中 使 用 的 共享 
密 钥 了 。 和 之 前 一 样 ， 你 和 阿诺德 将 竹 试 分 至 一 个 密 钥 ， 而 伊 天 饭 听 
并 试图 算出 密 钥 。 


第 一 步 : 你 和 阿 庄 德 各 日 单独 选择 一 个 私人 数 子 。 


n 
1 
2 
3 
+ 
5 
6 
7 
8 
9 


一 本 OO WW 


| 
OO 


这 张 表 显示 了 钟 大 小 为 11 时 数字 2、3 和 6 的 前 10 个 需 。 正 如 上 文 所 解释 的 ， 每 个 项 都 能 通过 


些 非常 简单 的 算术 从 上 一 项 中 算出 。 


为 保证 数学 尽 可 能 简单 ， 我 们 将 在 这 个 例子 中 使 用 非 音 小 的 数 
字 。 因 此 ， 假 设 你 选择 8 作为 私人 数字 ， 而 阿 许 德 选择 9。 这 两 个 数字 


一 一 8 和 9 一 一 部 不 是 共 至 密 钥 ， 而 是 像 你 在 颜料 混合 把 戏 中 选择 的 私 
人 人 颜色， 这些 数 字 将 被 用 作 “ 混 合 ” 一 个 共 至 密 钥 的 成 分 。 


第 二 步 : 你 和 阿诺德 公开 就 两 个 公开 数 子 达成 一 致 ， 钟 大 小 
(本 例 中 使 用 11) 和 男 一 个 被 称 为 基数 的 数字 〈 选 2 为 基数 ) 。 


这 些 公 开 数 子 一 一 11 和 2 一 一 像 公 开 闫 色 一 样 ， 你 和 阿诺德 在 闫 料 
混合 把 戏 一 开始 殊 对 此 达成 了 一 怪 。 注 意 ， 闫 料 混合 类 比 与 本 例 有 点 
不 同 : 在 颜料 混合 中 ， 我 们 只 需 一 种 公开 闫 色 ， 而 在 这 个 例子 中 ， 我 
们 需要 两 个 公开 数字 。 


第 三 步 : 通过 使 用 需 符 号 和 钟 算 ， 你 和 阿 诡 德 各 目 将 目 己 的 
私人 数字 和 公开 数字 相 混 ， 分 别 得 到 一 个 公开 一 私人 数字 
(public—private number, PPN) 。 


具体 来 说 ， 混 合生 按照 公式 来 完成 的 : 


PPN = base 私 人 数字 〈 钟 大 小 ) 


这 个 公式 用 文字 写 出 来 可 能 会 显得 有 点 诡异 ， 但 在 实际 中 却 很 简 
单 。 在 我 们 的 例子 中 ， 我 们 能 通过 参考 上 一 页 的 表格 来 得 出 管 案 : 


你 的 PPN = 28 = 3 ( 钟 大 小 为 11) 


阿诺德 的 PPN = 29 = 6 ( 钟 大 小 为 11) 


在 这 一 步 之 后 ， 你 可 以 在 下 页 的 图 中 查看 这 一 步 。 这 些 公 开 一 
人 数字 正 相 当 于 你 在 颜料 混合 把 戏 第 三 步 中 制作 的 “公开 一 私人 混合 颜 
色 ”。 在 那 一 步 中 ， 你 将 一 桶 公开 颜色 和 一 部 分 你 的 私人 颜色 相 混 合 ， 
制作 你 的 公开 一 私人 混合 颜色 。 在 这 里 ， 你 使 用 需 符 号 和 钟 算 将 自 
的 私人 数字 和 公开 数字 相 混合 


缮 


已 


第 四 步 : 你 和 阿诺德 各 自 单独 获得 对 方 的 公开 一 私人 数字 ， 
再 和 目 己 的 私人 数字 相 混 合 。 
这 可 以 按照 下 面 的 公式 完成 ; 
享 密 钥 = 其 他 人 的 PPN 私 人 数字 ( 钟 大 小 ) 


和 前 面 的 公式 一 样 ， 用 文字 写 出 来 会 显得 有 抬 诡 异 ， 但 通过 参考 
前 一 页 的 表格 ,很 容易 束 能 得 到 管 案 


你 的 共享 密 钥 = 68= 4 ( 钟 大 小 为 11) 
阿诺德 的 共享 密 钥 = 39= 4”( 钟 大 小 为 11) 


最 终 解 决 廊 案 显示 在 下 一 市 的 图 中 。 


你 的 会 


你 的 私人 
数字 


现实 生活 数字 混合 第 三 步 : 任何 想 要 公 


一 一 都 可 以 获取 到 。3 下 面 的 “28" 提 醒 


实 却 并 未 公开 。 类 似 的 ，6 下 


一 私人 数字 


i 的 “29* 也 仍然 信 


阿诺德 的 公开 一 私人 数字 


阿 诸 伪 的 私人 
数字 


了 我 们 3 是 如 何 计算 的 ， 但 


EF 持 私密 。 


3=28 使 用 的 钟 大 小 为 11 这 个 事 


开 一 私人 数字 (3 和 6) 的 人 一 一 使 用 逢 和 钟 算计 算得 出 


= 


目 然 ， 你 的 共享 密 钥 和 阿诺德 的 共享 密 钥 相 同 《这 个 例子 中 有 是 
4) 。 取 得 这 个 结果 依靠 了 例子 中 的 一 些 复杂 算术 ， 但 基本 概念 和 前 面 
一 样 : 尽管 你 按照 不 同 的 顺序 混合 了 各 种 成 分 ， 但 你 和 阿诺德 都 使 用 
了 相同 的 成 分 ， 因 此 也 得 到 了 相同 的 共享 密 钥 。 


和 这 个 把 戏 的 早 前 版 本 一 样 ， 伊 天 被 排除 在 外 。 她 知道 这 两 个 公 
开 数 字 (2 和 11) ， 她 也 知道 这 两 个 公开 一 私人 数字 (3 和 6) 。 但 她 不 
能 使 用 任何 知识 来 计算 共享 密 钥 数 字 ， 因 为 她 不 能 获取 你 和 阿诺德 持 
有 的 秘密 成 分 (私人 数字 ) 。 


实际 中 的 公 钥 加 密 


颜料 论 合 把 戏 的 最 终 版 本 一 一 运用 需 和 钟 算 混 合 数字 一 一 忠 是 计 
算 机 在 互联 网 上 建立 共享 密 钥 的 实际 方法 之 一 。 本 章 描述 的 方法 被 称 
为 迪 菲 一 赫 尔 曼 密 钥 交换 机 制 。 这 一 机 制 以 剑 特 菲 德 : 迪 菲 (Whitfield 
Diffie) 和 马丁 . 赫 尔 曼 (Martin Hellman) 的 名 字 命 名 ， 他 俩 于 1976 年 
首次 发 表 了 这 一 算法 。 每 次 你 访问 一 个 安全 网 站 (以 “https:” 而 
非 “http:” 开 头 ) ， 你 的 计算 机 和 其 通信 的 网 站 服务 器 之 间 都 会 建立 一 个 
共享 密 钥 ， 使 用 的 方法 是 迪 菲 一 赫 尔 曼 机 制 或 工作 原理 类 似 的 替代 方 
法 之 一 。 而 一 旦 建立 了 共享 密 钥 ， 这 两 台电 脑 就 能 使 用 之 前 描述 的 相 
加 算法 的 变 体 对 所 有 通信 进行 加 密 。 


[四 
你 的 公开 一 私人 
数字 


你 的 私人 
数字 


现实 生活 数字 混合 第 四 步 : 只 有 你 和 阿诺德 能 


箭头 所 示 的 元 素 组 合 起 来 。 


阿 庄 德 的 会 开 一 私人 


Si ps 


得 到 共享 密 


引 字 


门 诺 伪 的 私人 


数字 
通过 使 用 蜘 和 钟 办 计算 将 如 


还 有 很 重要 的 一 点 值得 注意 ， 当 迪 菲 一 赫 尔 受 机 制 在 现实 中 运用 
时 ， 实 际 涉 及 的 数字 要 远 比 我 们 在 例子 中 使 用 的 数字 大 。 我 们 使 用 的 
钟 大 小 很 小 (11) ， 因 此 计算 起 来 就 很 简单 。 但 如 果 你 选择 的 公开 钟 
大 小 很 小 ， 那 么 可 能 的 私人 数字 也 会 很 小 (因为 你 只 能 使 用 比 钟 大 小 
小 的 私人 数字 ) 。 而 这 也 意味 着 有 人 可 以 使 用 计算 机 试 出 所 有 可 能 的 
私人 数 子 ， 直 到 找到 一 个 数字 生成 你 的 公开 一 私人 数字 。 在 上 面 的 例 
子 中 ， 只 有 11 个 可 能 的 私人 数字 ， 因 此 这 个 系统 非 钊 轻易 吏 能 被 破 
解 。 相 反 ， 迪 菲 一 赫 尔 受 机 制 在 现实 中 运用 时 通 单 会 使 用 有 几 百 个 数 
位 长 的 钟 大 小 ， 这 让 可 能 的 私人 数字 多 得 令 人 不 可 想象 〈 比 一 万 亿 的 
一 万 亿 次 方 还 多 得 多 ) 。 即 便 如 此 ， 也 需要 小 心 选取 公开 数字 ， 以 确 
保 它 们 具有 正确 的 数学 性 质 一 一 如 果 你 感 兴趣 的 话 ， 请 看 下 页 的 文字 


框 。 
迪 菲 一 赫 尔 受 公开 数字 最 重要 的 属性 是 ， 钟 大 小 必须 是 一 个 
素数 一 一 只 有 1 和 其 目 身 两 个 除数 。 男 一 个 有 趣 的 要 求 是 ， 基 数 必 


须 是 钟 大 小 的 本 原 根 (primitive root) 。 这 也 意味 着 基数 的 窘 最 终 
将 循环 遍 钟 上 每 一 个 可 能 的 值 。 再 看 看 前 文 提 到 的 表 ， 你 会 注意 
到 2 和 6 都 是 11 的 本 原 根 ， 但 3 却 不 是 一 一 3 的 需 循 环 到 的 值 有 3、 
9、5、4 和 1， 却 没有 2、6、7、8 和 10。 


在 为 迪 菲 一 赫 尔 曙 机制 选 择 一 个 钟 大 小 和 基数 时 ， 钟 大 小 和 基数 必须 满足 特定 的 数学 性 质 。 


本 章 描述 的 迪 菲 一 赫 尔 曼 方法 只 是 通过 (电子 ) 明信片 通信 的 多 
种 绝妙 扩 妃 之 一 。 计 算 机 科学 家 们 称 迪 菲 一 赫 尔 曼 方法 为 密 钥 区 换算 
法 (key exchange algorithm) 。 其 他 公 钥 算法 的 运作 方式 不 同 ， 能 让 你 
使 用 接收 方 宜 布 的 公开 信息 ， 直 接 问 潜在 的 接收 方 加 密 一 条 消 恩 。 相 
反 ， 密 钥 交 换算 法 能 让 你 使 用 来 目 接 收 方 的 公开 信息 ， 建 立 一 个 共 至 
密 钥 ， 但 加 密 过 程 通过 加 法 把 戏 来 完成 。 对 于 互联 网 上 绝 大 部 分 通信 
而 言 ， 后 面 的 选项 一 一 我 们 在 本 章 中 了 解 到 的 这 种 方法 一 一 要 更 容易 
让 人 接受 ， 因 为 它 需 要 的 计算 能 力 要 少 很 多 。 


但 也 有 一 些 程序 需要 用 到 完整 的 公 钥 加 密 。 这 类 程序 中 最 有 趣 的 
可 能 要 算数 字 签 名 了 ， 我 们 将 在 第 九 章 谈 到 它 。 在 你 阅读 第 九 章 时 会 
发 现 ， 完 整 版 公 钥 加 密 的 思想 类 似 于 我 们 已 经 了 解 到 的 : 机 密 信息 和 
公开 信息 用 一 种 在 数学 上 不 可 逆 的 方式 “混合 ”在 一 起 ， 就 像 混合 在 一 
起 的 颜料 一 样 ， 再 也 分 不 开 。 最 著名 的 公 钥 加 密 系统 是 RSA， 这 个 名 
字 由 首次 发 表 该 系统 的 三 位 发 明 者 姓 的 首 字 母 组 合 而 成 : 罗 纳 德 . 李 维 
斯 特 (Ronald Rivest) 、 阿 迪 - 沙 米尔 (Adi Shamir) 和 雷 奥 纳 德 阿 德尔 
曼 (Leonard M.Adlemen) 。 第 九 章 用 RSA 作 为 解释 数字 签名 如 何 运行 
的 主要 例子 。 


在 这 些 早 期 公 钥 算法 发 明 的 育 后 ， 都 有 一 个 迷人 而 复杂 的 故事 。 
迪 菲 和 赫 尔 受 的 确 是 发 表 迪 菲 一 夫 尔 曼 机 制 的 第 一 批 人 ， 时 间 走 1976 
年 。 李 维 斯 特 、 沙 米尔 和 阿 德尔 受 也 的 确 是 发 表 RSA 的 第 一 批 人 ， 时 


间 是 1978 年 。 但 这 并 不 是 故事 的 全 部 ! 人 们 后 来 发 现 ， 英 国政 府 在 数 
年 前 束 已 经 知道 类 似 系统 。 不 壮 的 征 ， 那 些 发 明 迪 菲 一 赫 尔 受 机 制 和 
RSA 的 先驱 们 是 英国 政府 通信 实验 室 GCHQ 的 数学 家 。 他 们 工作 的 结 
被 记录 在 内 部 机 密 文 件 中 ， 直 到 1997 年 才 解 密 。 


RSA、 巡 菲 一 医 尔 曼 机 制 和 其 他 公 钥 加 密 系 统 不 仅仅 古 绝妙 的 思 
想 。 它 们 还 发 展 成 了 商业 技术 和 互联 网 标准 ， 对 商业 和 个 人 有 痢 极其 
重要 的 意义 。 没 有 公 角 加密， 我 们 每 天 使 用 的 绝 大 部 分 在 线 交 易 都 不 
可 能 安全 地 完成 。RSA 的 发 明 者 在 20 世 纪 70 年 代为 自己 的 系统 申请 了 
专利 ， 而 他 们 的 专利 直到 2000 年 年 末 才 失效 。 在 专利 失效 的 那天 晚 
上 ， 类 国有 旧金山 市 的 糯 国 音乐 大 剧院 举行 了 一 次 庆祝 晚会 一 -也许 是 
为 庆祝 公 钥 加 密 将 永久 为 人 们 服务 这 一 事实 。 


[1] 对 于 了 解 计算 机 数字 系统 的 人 而 言 ， 我 在 这 里 说 的 是 小 数位 数 ， 而 非 二 进 制 数 。 对 于 了 


解 对 数 的 人 而 言 ， 将 二 进 制 数 转 化 为 小 数位 数 的 转换 比例 30% 来 自 于 log102s 0.3。 


第 五 章 
纠 锯 码 


一 一 自 纠正 的 错误 


告诉 一 个 人 他 犯 了 错 是 一 回 事 ， 让 他 掌握 真理 则 是 男 一 码 事 。 


一 约翰 :洛克 (John Locke) ， 


《人 类 理智 论 》 (Essay Concerning Human Understanding) 


如 今 ， 我 们 已 习惯 于 在 有 需要 时 随时 使 用 计算 机 。20 世 纪 40 年 代 
在 贝尔 电话 公司 实验 室 工作 的 研究 员 理 查 德 . 汉 明 (Richard 
Hamming) 就 没 这 么 幸运 了 : 其 他 部 门 使 用 着 他 所 需要 的 公司 计算 
机 ， 只 有 周末 才 轮 到 他 用 。 因 此 ， 你 可 以 想象 ， 由 于 计算 机 在 读 取 目 
身 数据 时 出 错 从 而 导致 频 蛇 月 江 后 ， 他 有 多 么 泪 涪 。 汉 明 谈 到 这 个 问 
题 时 是 这 样 说 的 : 


我 要 轮 两 周 才 能 进去 一 次 ， 却 发 现 我 所 有 的 东西 都 被 清空 
了 ， 什 么 都 没 得 到 。 我 真 的 很 生气 ， 因 为 我 想 要 这 些 答案 ， 而 且 
还 浪费 两 个 周末 的 时 间 。 于 是 我 说 :“ 去 他 的 ， 如 果 计 算 机 能 侦 测 
到 错误 ， 为 什么 它 不 能 对 错误 定位 并 进行 纠正 ? ” 


要 说 明 发 明 纠 错 码 的 必要 性 ， 还 有 男 外 几 起 很 鲜明 的 例子 。 汉 明 
很 快 束 创造 了 第 一 批 纠 错 码 ， 一 种 近乎 神奇 的 能 侦 测 并 纠正 计算 机 数 
据 中 错误 的 算法 。 没 有 纠 错 码 ， 我 们 的 计算 机 和 通信 系统 会 比 现 在 慢 
很 多 ， 功 能 上 弱 许 多 ， 可 靠 性 也 会 差 很 多 。 


错误 侦 测 及 纠正 的 需求 


计算 机 有 三 项 基本 工作 。 最 重要 的 工作 是 执行 计算 ， 即 给 予 计 算 
机 一 些 输入 数据 ， 计 算 机 必须 用 某 种 方法 转化 数据 ， 并 得 出 一 个 有 用 
的 答案 。 但 如 条 没有 计算 机 执行 的 另外 两 项 非常 重要 的 工作 : 存储 数 
据 和 传输 数据 ， 计 算 答案 的 能 力 基 本 上 也 没 用 。 (计算 机 通常 在 内 存 
和 磁 强 驱动 器 上 存储 数据 ， 基 本 上 是 通过 互联 网 传输 数据 。) 要 深入 
理解 这 一 点 ， 想 象 一 台 既 不 能 存储 也 不 能 传输 信 


思 的 计算 机 。 这 样 的 计算 机 目 然 不 会 有 什么 用 。 的 确 ， 你 可 以 做 
一 些 复杂 计算 〈 比 如， 准备 一 份 复 杂 的 财务 报表 ， 详 细 说 明 公 司 预 
算 ) ， 但 你 不 能 将 结果 发 送 给 同事 ， 甚 至 不 能 保存 结果 以 便 返 回 继续 
操作 。 因 此 ， 传 输 和 存储 数据 对 现代 计算 机 是 真正 的 至 关 重 要 。 


但 传输 和 存储 数据 要 面临 一 个 巨大 挑战 : 数据 必须 丝 晕 无 震 一 一 
因为 在 许多 情况 下 ， 哪 怕 一 丁点 错误 也 会 让 数据 变 得 毫 无 用 处 。 作 为 
人 ， 我 们 也 熟悉 在 不 出 错 的 情况 下 存储 和 传输 信息 的 需求 。 比 如 ， 如 
果 你 写 下 某 人 的 电话 号 码 ， 按 正确 的 顺序 无 误 地 记录 下 每 位 数 至 天 重 
要 。 哪 怕 其 中 有 一 位 数 出 错 ， 那 个 电话 号 码 对 你 或 其 他 人 都 马 无 用 
处 。 在 一 些 情况 中 ， 数 据 出 错 的 后 采 要 比 毫 无 用 处 更 糟 。 比 如 ， 存 储 
一 个 计算 机 软件 的 文件 中 有 一 个 错误 ， 这 会 导致 程序 裔 省 或 让 程序 做 
一 些 原本 不 应 该 做 的 事 。 (程序 甚至 可 能 会 删除 一 些 重要 文件 ， 或 在 
你 保存 工作 前 怖 溃 。) 而 在 一 些 计算 机 化 的 金融 记录 中 出 错 ， 可 能 会 


导致 实际 的 金钱 损失 。 (假如 你 以 为 自己 在 买 每 股 5.34 美 元 的 股票 ， 
而 这 只 股票 的 实际 价格 是 每 股 8.34 美 元 。) 


不 过 ， 人 们 需要 存储 的 无 误 信 息 相 对 较 少 ， 而 且 在 知道 一 些 信息 
一 一 如 银行 账号 、 密 码 、 电 子 邮 件 地 址 等 一 一 很 重要 的 情况 下 ， 通 过 
仔细 检查 避免 错误 也 不 是 太 难 。 而 另 一 方面 ， 计 算 机 要 无 误 地 存储 和 
传输 的 信息 量 绝对 是 海量 。 为 了 让 你 对 信息 量 级 有 概念 ， 想 想 下 列 情 
形 。 假 设 你 有 一 个 存储 容量 是 100 GB 的 计算 设备 。 (在 写作 本 书 时 ， 
这 是 低 价 笔 记 本 电脑 的 标准 容量 。) 这 100 GB 相当 于 1 500 万 页 文本 。 
因此 ， 即 便 计算 机 存储 系统 每 100 万 页 犯 一 个 错误 ， 在 设备 容量 填 满 时 
(平均 ) 也 会 有 15 个 错误 。 这 一 情况 也 适用 于 传输 数据 : 如果 你 下 载 
一 个 20 兆 的 软件 ， 你 的 计算 机 每 接收 100 万 个 字符 就 会 出 错 一 次 ， 下 载 
的 软件 中 也 会 有 逾 20 个 错误 一 一 在 你 不 曾 预料 到 的 情况 下 ， 每 一 个 错 
误 都 有 可 能 导致 成 本 巨大 的 裔 省 。 


这 个 故事 的 教训 是 ， 对 于 计算 机 而 言 ， 精 确 度 达到 99.999 9% 也 还 
征 不 够 好 。 计 算 机 必须 能 在 存储 和 传输 数 十 亿 块 信息 的 情况 下 ， 不 犯 
任何 一 个 错误 。 但 和 其 他 设备 一 样 ， 计 算 机 也 必须 处 理 通信 问题 。 电 
话 吕 定 个 好 例子 : 显然 电话 不 能 完美 地 传输 信息 ， 因 为 电话 对 话 经 种 
要 遭遇 失真 、 静 电 噪声 或 其 他 类 型 的 噪声 。 但 电话 并 不 是 遭遇 这 类 情 
况 的 唯一 设备 : 电线 受 所 有 种 类 的 波动 影响 ， 无 线 通信 无 时 无 刻 不 受 
干扰 ; 硬盘 、CD (激光 唱 盘 ) 和 DVD (数字 视频 光盘 ) 等 物理 媒体 


会 由 于 灰尘 或 其 他 物理 干扰 的 影响 ， 被 划 伤 、 受 损 或 不 能 读 取 。 面 临 
如 此 显然 的 通信 和 错误， 我 们 怎么 能 希望 实现 数 十 亿 分 之 一 的 错误 率 
呢 ? 本 章 将 揭示 让 这 一 奇迹 发 生 的 绝妙 计算 机 科学 背后 的 思想 。 结 果 
证 明 ， 如 果 你 运用 正确 的 把 戏 ， 即 便 是 极端 不 可 知 的 通信 频道 也 可 以 
以 极 低 的 错误 率 传输 数据 。 而 且 这 个 错误 率 是 如 此 之 低 ， 以 至 于 在 实 
际 当 中 ， 错 误 基 本 上 完全 被 消除 了 。 


重复 把 戏 


要 通过 一 个 不 可 靠 的 频道 进行 可 靠 的 通信 ， 其 中 最 根本 的 把 戏 是 
我 们 都 熟悉 的 ， 要 确保 一 些 信息 正确 地 传输 ， 你 只 需 重复 几 次 该 信 
忌 。 如 有 果 某 人 在 电话 连接 很 粳 糕 的 情况 下 ， 念 给 你 听 一 个 电话 号 码 或 
银行 账号 ， 你 极 有 可 能 会 要 求 对 方 至 少 重复 一 次 ， 以 便 确 认 号 码 无 


误 。 


计算 机 也 能 做 同样 的 事情 。 假 设 银行 的 一 台 计 算 机 试图 通过 互联 
网 把 你 的 账户 余额 传 给 你 。 你 的 账户 余额 是 5 213.75 美 元 ， 但 不 幸 的 
征 ， 网 络 不 稳定 ， 每 一 个 数字 都 有 20% 的 概率 变 成 其 他 东西 。 因 此 ， 
当 你 的 账户 余额 第 一 次 传输 过 来 时 ， 显 示 的 可 能 是 5 293.75 美 元 。 很 显 
然 ， 你 没 办 法 知道 余额 是 否 正 确 。 所 有 的 数字 都 有 可 能 正确 ， 但 其 中 
一 个 或 以 上 的 数字 可 能 出 错 ， 而 你 没有 办 法 分 辨 。 但 通过 运用 重复 把 


戏 (the reprtition trick) ， 你 能 很 好 地 推测 出 真正 的 余额 。 假 设 你 请 求 
传 出 余额 5 次 ， 并 收 到 了 以 下 反馈 


传输 1: $5293:75 
传输 2: $5213:75 
传输 3: $5213:11 
传输 4: $5443:75 
传输 5: $7218:75 


注意 ， 其 中 一 些 传输 不 止 一 位 数 出 错 ， 也 有 一 次 传输 (传输 2) 没 
有 出 现 错误 。 关 键 点 在 于 ， 你 没 办 法 知道 哪儿 有 错 ， 因 此 也 没 办 法 将 
传输 2 挑选 为 正确 的 传输 。 相 反 ， 你 可 以 做 的 事情 束 是 单独 检查 每 个 数 
字 ， 寻 找 同 一 数字 的 所 有 传输 ， 然 后 选 出 出 现 最 频繁 的 那个 值 。 下 面 
列 出 了 所 有 传输 项 ， 最 末尾 是 出 现 频率 最 高 的 数字 : 


传输 1: $5293:75 


传输 2: $5213:75 


传输 3: $5213:11 


传输 4: $5443:75 


传输 5: $7218:75 


出 现 频率 最 高 的 数字 : $5213:75 


要 把 这 个 概念 完全 弄 清楚 ， 让 我 们 来 看 些 例 子 。 检 查 传输 中 的 第 
一 位 数 ， 在 传输 1~4 中 ， 第 一 位 数 都 是 5， 而 传输 5 的 第 一 位 数 是 7。 换 
名 话说， 第 一 位 数 在 4 次 传输 中 是 “5”， 而 只 在 一 次 传输 中 是 “7”。 因 
此 ， 尽 管 你 不 能 完全 肯定 ， 但 你 银行 余额 第 一 位 数 的 值 最 有 可 能 是 5 。 
转 到 第 二 位 数 ， 我 们 看 到 2 出 现 了 4 次 ， 而 4 出 现 了 1 次 ， 因 此 2 最 有 可 能 
是 第 二 位 数 。 第 三 位 数 有 点 有 趣 ， 因 为 有 三 种 可 能 性 : 1 出 现 了 3 次 ,9 
出 现 了 1 次 ，4 出 现 了 1 次 。 但 同样 的 原则 也 适用 ，1 是 最 有 可 能 为 真 的 
值 。 通 过 对 所 有 数字 使 用 这 种 方法 ， 你 可 以 得 到 完整 银行 余额 的 最 终 
推测 : 5213.75 美 元 ， 而 这 也 正 是 正确 的 值 。 


这 种 方法 很 简单 。 我 们 已 经 解决 这 个 问题 了 吗 ? 在 某 种 程度 上 ， 
是 的 。 但 你 也 许 会 对 两 件 事 感 到 不 满 。 首 先 ， 这 个 信道 的 错误 率 只 
20%， 而 在 一 些 情况 中 ， 计 算 机 需要 在 错误 率 远 高 于 20% 的 信道 中 通 
信 。 其 次 ， 也 许 要 更 严肃 些 ， 上 面 例子 的 最 终 答案 恰好 是 正确 的 ， 但 
不 能 保证 答案 会 永远 都 正确 : 它 只 是 一 个 推测 ， 基 于 我 们 的 看 法 一 一 
认为 它 才 是 最 有 可 能 为 真 的 银行 余额 。 幸运 的 是 ， 这 两 件 事 都 很 容易 
处 理 : 我 们 只 需 增 加 重新 传输 的 次 数 ， 直 到 可 靠 性 高 到 让 我 们 满意 为 
上 上 上 。 


比如 ， 假 设 最 后 一 个 例子 中 的 错误 率 是 50% 而 不 是 20%。 你 可 以 
要 求 银行 传输 1 000 次 余额 ， 而 不 是 5 次 。 让 我 们 集中 关注 第 一 位 数 ， 
因为 其 他 数 的 工作 原理 都 一 样 。 由 于 错误 率 是 50%， 大 约 有 一 半 的 数 
会 正确 地 传输 为 5， 但 另 一 半 会 变 成 其 他 随机 值 。 因 此 5 会 出 现 约 500 
次 ， 其 他 每 个 数 (0~4 和 6~9) 都 会 出 现 50 次 左右 。 数 学 家 们 能 计算 出 
某 个 数 出 现 的 次 数 比 5 多 的 概率 : 即便 使 用 这 个 方法 每 秒 传输 一 个 新 的 
银行 余额 ， 我 们 也 得 等 上 数 万 亿 年 才能 猜 错 银行 余额 。 这 个 故事 的 重 
点 在 于 ， 通 过 重复 一 条 不 可 靠 的 消息 足够 多 次 ， 你 可 以 让 消息 的 可 靠 
性 高 到 让 你 满意 为 止 。 (在 这 些 例子 中 ， 我 们 假设 错误 随机 发 生 。 相 
反 ， 如 采 一 个 恶意 实体 故意 干扰 传输 ， 并 选择 制造 哪些 错误 ， 重 复 把 
戏 都 要 不 安全 得 多 。 后 面 介 绍 的 一 些 代码 在 对 抗 这 类 恶意 攻击 时 都 表 
现 民 好 。) 


因此 ， 通 过 使 用 重复 把 戏 ， 不 可 徘 通信 的 问题 能 够 被 解决 ， 错 谍 
率 基 本 上 能 伞 消 火 。 不 至 的 是 ， 重 复 把 戏 对 于 现代 计算 机 系统 来 说 还 
不 够 好 。 当 传输 像 银行 余额 这 样 的 小 块 数据 时 ， 重 新 传输 1 000 次 耗费 
并 不 多 ， 但 在 下 载 一 个 大 型 软件 〈 假 设 有 200 兆 ) 时 ， 显 然 传输 1 000 
份 该 软件 完全 不 现实 。 很 明显 ， 计 算 机 需要 使 用 一 些 比重 复 把 戏 更 成 
熟 的 方法 。 


见 余 把 戏 


即便 计算 机 不 使 用 上 面 摘 述 到 的 重复 把 戏 ， 我 们 也 在 本 章 一 开始 
介绍 它 ， 以 便 让 我 们 能 了 解 实际 生活 当中 可 靠 通信 和 最 基 本 的 原则 。 这 
条 基本 原则 是 ， 你 不 能 只 发 送 原 始 消息 ， 你 要 发 送 一 些 多 余 的 东西 以 
增加 可 靠 性 。 在 重复 把 戏 的 例子 中 ， 你 发 送 的 额外 东西 号 是 更 多 份 原 
台 消 轧 。 但 实际 情况 是 ， 要 提高 可 靠 性 ， 你 还 有 其 他 许多 多 余 的 东西 
可 以 发 送 。 计 算 机 科学 家 们 称 这 些 多 余 的 东西 为 " 见 余 ”。 有 时 候 ， 元 
余 被 附加 在 原始 消息 上 。 在 研究 下 一 个 把 戏 ( 校 验 和 把 戏 ， 时 ， 我 们 
会 看 到 这 种 “附加 ?技术 。 但 首先 ， 我 们 要 研究 另 一 种 添加 元 余 的 方 
法 。 这 种 方法 实际 上 十 把 原始 消息 转换 成 一 条 更 长 的 元 余 消 息 一 一 诛 
台 消 妃 会 被 删除 ， 取 而 代 之 的 是 一 条 更 长 的 不 同 消 息 。 当 收 到 更 长 的 
消 思 时， 你 束 能 将 其 转换 回 原始 消息 ， 即 便 这 条 元 余 消 息 在 糟 糕 的 信 
道中 传输 时 被 破坏 了 。 我 们 将 这 种 方法 简单 地 称 为 见 余 把 戏 。 


举 个 例子 更 容易 说 清 。 之 前 我 们 笑 试 将 你 的 银行 余额 5 213.75 美 元 
通过 一 条 不 可 靠 的 信道 传输 ， 这 条 信道 有 20% 的 概率 随机 替换 数字 。 
和 壬 试 只 传输 “$5 213.75" 不 同 的 是 ， 让 我 们 把 这 个 数字 转换 成 一 条 包 
含 相同 信息 的 更 长 的 (因此 也 是 “ 见 余 的 ”) 消息 。 在 这 个 例子 中 ， 我 
们 用 英语 单词 简单 地 把 余额 拼 出 来 : 


five two one three point seven five 


我 们 再 假设 ， 由 于 信道 粮 粹 ， 这 条 消 居 中 约 20% 的 字符 会 变 成 其 


他 随机 字符 。 这 条 消 忌 最终 可 能 灾 成 : 


fiqe kwo one thrxp point sivpn fivg 
尽管 读 起 来 有 点 讨厌 ， 但 我 认为 ， 任 何 知道 英语 的 人 都 能 猜 出 ， 


这 条 被 破坏 的 消息 代表 真正 的 银行 余额 5 213.75 类 元 ， 这 点 你 应 该 会 赞 
局 有 


关键 在 于 ， 因 为 我 们 使 用 了 一 条 元 余 消 轧 ， 对 消 妃 中 的 任何 单个 
变化 进行 可 靠 侦 测 及 纠正 变 得 可 行 。 如 有 果 我 告诉 你 ， 字 母 "fiqe" 代 表 瑞 
语 中 的 一 个 数 子 ， 且 只 有 一 个 字母 被 奉 换 了 ， 你 绝对 能 肯定 原始 消 筷 
中 的 单词 是 five” ， 因 为 除 此 以 外 再 也 没有 英语 数字 能 通过 埠 
换 “fige” 中 一 个 字母 获得 了 。 与 此 形成 鲜明 对 比 的 是 ， 如 果 我 告诉 你 ， 
数字 “367" 代 表 了 一 个 数 ， 但 其 中 一 个 数字 被 区 换 了 ， 你 没 办 法 知道 原 


始 数字 二 多 少 ， 因 为 这 条 请 轧 中 没有 元 余 。 


尽管 我 们 还 没 和 弄 清 元 余 完 竟 是 如 何 工 作 的 ， 但 却 已 经 知道 它 和 让 
请 居 变 长 有 关 ， 消 娠 的 每 一 部 分 部 应 该 符合 某 种 已 知 模式 。 通 过 这 种 
方法 ， 任 何 变化 都 能 首先 被 识别 (因为 并 不 符合 已 知 模 式 ) ， 然 后 被 
纠正 (通过 改变 错误 使 其 符合 模式 ) 。 计 算 机 科学 家 称 这 些 已 知 模式 
为 “代码 字 ”(code words) 。 在 上 面 的 例子 中 ， 代 码 字 就 是 用 英语 写 的 


ML 三: A 
数字 如 “one>” K ctwo>” 二 “three” 等 人 


现在 是 时 候 解释 元 余 把 戏 (the redundany trick) 究竟 是 如 何 运作 
的 了 。 消 恩 由 “符号 > 一 计算 机 科学 家 是 这 么 称呼 的 一 一 组 成 。 在 我 


们 这 个 简单 例子 中 ， 符 号 是 数字 0~9 (我 们 会 忽略 美元 符号 以 及 小 数 
点 ， 让 事情 变 得 更 简单 ) 。 每 个 符号 都 被 指定 了 一 个 代码 字 。 在 这 个 
例子 中 ， 符 号 1 被 指定 的 代码 字 是 “one”，2 被 指定 的 代码 字 是 “two”， 
依 此 类 推 。 


要 传输 一 条 信息 ， 你 首先 要 找 出 每 个 符号 ， 并 将 符号 较 译 成 对 应 
的 代码 字 。 其 次 ， 你 将 转换 的 消 恩 通过 不 可 靠 信 道 发 送 。 当 消 居 个 接 
收 到 时 ， 你 查看 消息 的 每 个 部 分 ， 检 查 其 是 否 为 有 效 的 代码 字 。 如 果 
它 是 有 效 的 (如 “five”*) ， 你 只 需 将 其 转换 为 相应 的 符号 (如 5) 即 
可 。 如 果 其 不 是 有 效 的 代码 字 (如 “fige”) ， 你 要 找 出 其 和 哪个 代码 字 
最 匹配 〈 这 个 例子 中 就 是 “five”") ， 并 将 那个 无 效 代 码 字 转换 成 相应 的 
符号 (也 就 是 5) 。 使 用 这 些 代码 的 例子 如 下 图 所 示 : 


编码 


one 


解码 
5 (最 接近 的 匹 百 
,| 2 〈 最 接近 的 匹 本 
用 英文 字 表 示 数 字 的 代码 


这 就 是 全 部 过 程 。 实 际 上 ， 计 算 机 在 存储 和 传输 信息 时 会 一 直 用 
到 这 个 元 余 把 戏 。 和 我 们 在 例子 中 使 用 的 英语 相 比 ， 数 学 家 们 已 经 找 
到 了 更 漂亮 的 代码 字 ， 但 可 靠 计算 机 通信 的 工作 原理 仍然 相同 。 下 页 
的 图 就 列举 了 一 个 真实 例子 。 这 个 例子 被 计算 机 科学 家 们 称 为 (7， 
4) 汉 明 代码 (Hamming code) ， 这 是 理 查 德 : 汉 明 于 1947 年 在 贝尔 实 
验 室 发 明 的 代码 之 一 ， 为 了 处 理 之 前 说 过 的 周末 计算 机 裔 演 。 (由 于 
贝尔 实验 室 的 要 求 ， 汉 明 申 请 了 这 些 代码 的 专利 ， 直 到 3 年 后 的 1950 年 
才 发 表 。) 和 我 们 在 前 面 用 到 的 代码 相 比 ， 汉 明代 码 最 明显 的 区 别 是 
所 有 事情 都 通过 0 和 1 完成 。 因 为 计算 机 存储 和 传输 的 每 一 块 数据 都 会 


被 转化 为 0 和 1 的 字符 串 ， 现 实生 活 中 使 用 的 所 有 代码 也 限 用 这 两 个 数 


0000000 


em 


子 。 


编码 


解码 


完全 瑟 丁 


医 0010 (最 接近 的 匹 首 


0011 (最 接近 的 匹 


计算 机 使 用 的 真实 代码 。 计 算 机 科学 家 们 称 这 一 代码 为 (7,4) 汉 明 代码 。 注 意 ，“ 编 码 ” 框 中 


只 列 出 了 16 个 可 能 的 四 位 数 输入 中 的 5 个 。 其 余 的 输入 也 都 有 相应 的 代码 字 ， 但 它们 在 这 里 被 


使 用 英文 字 表 示 数 字 的 代码 


这 就 是 全 部 过 程 。 实 际 上 ， 计 算 机 在 存储 和 传输 信息 时 会 一 直 用 
到 这 个 元 余 把 戏 。 和 我 们 在 例子 中 使 用 的 英语 相 比 ， 数 学 家 们 已 经 找 
到 了 更 漂亮 的 代码 字 ， 但 可 靠 计算 机 通信 的 工作 原理 仍然 相同 。 下 页 
的 图 就 列举 了 一 个 真实 例子 。 这 个 例子 被 计算 机 科学 家 们 称 为 (7， 
4) 汉 明 代码 (Hamming code) ， 这 是 理 查 德 : 汉 明 于 1947 年 在 贝尔 实 
验 室 发 明 的 代码 之 一 ， 为 了 处 理 之 前 说 过 的 周末 计算 机 崩溃 。 (由 于 
贝尔 实验 室 的 要 求 ， 汉 明 申 请 了 这 些 代码 的 专利 ， 直 到 3 年 后 的 1950 年 
才 发 表 。) 和 我 们 在 前 面 用 到 的 代码 相 比 ， 汉 明代 码 最 明显 的 区 别 是 
所 有 事情 都 通过 0 和 1 完成 。 因 为 计算 机 存储 和 传输 的 每 一 块 数据 都 会 
被 转化 为 0 和 1 的 字符 串 ， 现 实生 活 中 使 用 的 所 有 代码 也 限 用 这 两 个 数 


A 


子 。 


计算 机 使 用 的 真实 代码 。 计 算 机 科学 家 们 称 这 一 代码 为 〈7, 4) 汉 
明代 码 。 注 意 ,“ 编 码 ” 框 中 只 列 出 了 16 个 可 能 的 四 位 数 输入 中 的 5 个 。 
其 余 的 输入 也 都 有 相应 的 代码 字 ， 但 它们 在 这 里 被 省 略 了 。 


除 此 以 外 ， 所 有 事情 都 和 前 面 一 模 一 样 。 在 编码 时 ， 每 一 组 4 位 数 
字 都 加 入 了 元 余 ， 产 生 了 一 个 7 位 数 的 代码 字 。 在 解码 时 ， 你 首 允 要 为 


接收 到 的 7 位 数 寻找 完全 匹配 ， 如 采 导 找 完全 匹配 失败 ， 束 选择 最 接近 
的 匹配 。 你 也 许 会 担心 ， 现 在 我 们 在 和 0 及 1 打交道 ， 也 许 相近 的 匹配 
不 只 一 个 ， 最 后 可 能 会 选择 错误 的 解码 。 不 过 ， 这 种 特殊 代码 的 设计 
非常 精巧 ，7 位 数 代 码 字 中 的 任何 错误 都 能 得 到 确定 无 疑 的 纠正 。 在 设 
计 市 有 这 种 属性 的 代码 背后 是 一 些 闫 丽 的 数学 ， 但 在 这 里 ， 我 们 不 会 


深究 其 细节。 


值得 强调 的 是 ， 为 什么 元 余 把 戏 在 实际 应 用 中 要 比重 复 把 戏 更 受 
欢迎 。 主 要 原因 是 这 两 个 把 戏 的 相对 成 本 。 计 算 机 科学 家 们 使 用 “ 杂 
项 ”(overhead) 衡量 纠 错 系统 的 成 本 。 杂 项 就 是 为 确保 消息 被 正确 接 
收 而 发 送 的 多 余 信 息 。 重 复 把 戏 的 杂项 数量 巨大 ， 因 为 你 必须 发 送 数 
份 完 整 消 轧 。 元 余 把 戏 的 杂项 取决 于 你 使 用 的 代码 字 的 具体 类 型 。 上 
面 的 例子 使 用 英语 作为 代码 字 ， 元 余 消 恩 有 35 个 字母 长 ， 而 原始 消 忆 
只 含有 6 个 数字 ， 因 此 元 余 把 戏 这 一 特殊 应 用 的 杂项 也 很 大 。 但 数学 家 
们 已 经 找到 了 元 余 度 低 很 多 的 代码 字 ， 而 且 其 在 侦 测 错误 的 概率 上 也 
效率 惊人 。 这 些 代 码 字 的 低 杂 项 也 十 计算 机 使 用 元 余 把 戏 一 一 而 非 重 
复 把 戏 一 一 的 原因 。 


到 目前 为 止 ， 我 们 进行 的 讨论 都 使 用 利用 代码 传输 信息 的 例子 ， 
但 我 们 讨论 过 的 所 有 事情 都 能 很 好 地 在 存储 信息 的 任务 中 应 用 。CD、 
DVD 和 计算 机 硬盘 都 极度 依赖 纠 错 码 ， 以 实现 我 们 在 现实 中 观察 到 的 
超级 可 车 性。 


校 验 和 把 戏 


目前 为 止 ， 我 们 研究 了 同时 侦 测 和 纠正 数据 中 错误 的 方法 。 重 复 
把 戏 和 克 余 把 戏 都 属于 此 类 方法 。 但 还 有 男 外 一 种 可 能 的 方法 能 解决 
整个 问题 ， 我 们 可 以 先 不 管 纠 错 ， 而 是 将 精力 集中 在 侦 测 错误 上 。 
(17 世 纪 的 哲学 家 约翰 : 洛 元 对 错误 侦 测 和 错误 纠正 之 间 的 区 别 有 清 楚 
地 认识 一 一 正如 你 在 本 章 开 篇 引言 中 所 看 到 的 。) 对 于 许多 软件 而 
言 ， 只 侦 测 到 一 个 错误 束 足 够 了 ， 因 为 如 果 你 侦 测 到 了 一 个 错误 ， 请 
求 再 发 送 一 份 数据 即 可 。 而 且 你 可 以 一 直 请 求 新 拷贝 ， 直到 得 到 完全 
无 误 的 拷贝 。 这 是 最 经 常 使 用 的 策略 。 比 如 ， 几 乎 所 有 互联 网 连接 都 
使 用 这 一 技术 。 我 们 称 这 一 方法 为 “ 校 验 和 把 戏 ” (The checksum 
trick) ， 这 么 命名 的 原因 很 快 就 会 明朗 。 


要 理解 校 验 和 把 戏 ， 假 设 我 们 所 有 消息 都 只 有 数字 组 成 会 更 方便 
些 。 这 是 一 个 非常 真实 的 假设 ， 因 为 计算 机 用 数字 存储 所 有 信息 ， 只 
有 在 向 人 展示 信息 时 ， 才 把 数字 转译 成 文本 或 图 像 。 不 过 ， 在 本 章 所 
有 的 例 了 于 中， 任何 对 消 轧 符 豆 的 特殊 选择 都 不 影响 本 章 描述 的 技术 ， 
理解 这 点 很 重要 。 有 时 候 使 用 数字 符号 (数字 0~9) 更 方便 ， 而 有 时 
候 使 用 字母 符号 (字母 a~z) 要 更 加 方便 。 不 过 ， 不 管 是 使 用 哪 种 符 
号 ， 我 们 都 能 就 这 些 符号 之 间 的 一 些 转译 达成 一 致 。 比 如 ， 从 字母 转 


译 为 数 子 符号 的 一 个 明显 例子 就 是 a>01、b 一 02、..………. `z—26° 


此 ， 我 们 古 在 探究 一 项 传输 数字 消息 还 是 字母 消 轧 的 技术 就 变 得 无 天 
紧要 了 ; 通过 首先 对 符号 进行 简 单 的 固定 的 转译 ， 这 项 技术 稍 后 将 被 
应 用 在 任何 种 类 的 消 上 息 上 。 


到 这 里 ， 我 们 必须 了 解 校 验 和 和 究 葛 是 什么 。 校 验 和 的 种 类 有 很 
多 ,但 目前 我 们 将 着 重 于 最 简单 的 那 种 校 验 和 一 一 我 们 称 之 为 “简单 校 
验 和 ” (simple checksum) 。 计 算 一 条 数字 消息 的 简单 校 验 和 的 确 很 容 
易 : 你 只 需 将 消 妃 中 的 所 有 数字 相 加 ， 只 保留 结果 的 最 后 一 位 数 ， 剩 
下 的 数字 就 是 你 的 简单 校 验 和 。 比 如 : 假设 消息 是 : 


46756 


那么 所 有 数字 之 和 为 4+6+7+5+6 = 28， 但 我 们 只 保留 最 后 一 位 
数 ， 因 此 这 条 消息 的 简单 校 验 和 是 8。 


但 如 何 使 用 校 验 和 呢 ? 很 筒 单 : 你 只 需 在 发 送 原 始 消 轧 前 ， 将 原 
台 消 轧 的 校 验 和 附加 到 背 轧 末尾 即 可 。 在 别人 接收 到 消息 后 ， 他 们 能 
再 计算 校 验 和 ， 并 和 你 发 送 的 校 验 和 比较 ， 看 是 否 正确 。 换 句 话 说 ， 
他 们 “check”( 校 验 ) 消息 的 “sum”( 和 ) 一 一 这 就 是 术 
语 “checksum”( 校 验 和 ) 的 由 来 。 继 续 说 上 面 的 例子 。 消 息 “46756” 的 
人 简单 校 验 和 十 8， 因 此 我 们 这 样 来 传输 消 恩 及 其 校 验 和 |: 


467568 


现在 ， 接 收 消息 的 人 必须 知道 你 使 用 的 是 校 验 和 把 戏 。 假 设 他 们 
确实 知道 ， 他 们 就 能 立即 认 出 最 后 一 位 数 8 不 属于 原始 消息 ， 然 后 把 最 
后 一 位 数 放 一 边 ， 计 算 其 他 数 的 和 。 如 果 在 传输 这 条 消息 时 没有 出 现 
错误 ， 他 们 会 计算 4+6+7+5+6 = 28， 保 留 最 后 一 位 数 (也 就 是 8) ， 在 
将 最 后 一 位 数 和 之 前 放 到 一 边 的 校 验 和 比较 ， 看 是 否 相 等 (的确 相 
等 ) ， 因 此 得 出 总 结 ， 消 息 正确 地 进行 了 传输 。 另 一 方面 ， 如 果 传 输 
消息 时 出 错 了 ， 这 时 会 发 生 什 么 ? 假设 7 随机 变 为 3。 那 么 你 会 收 到 如 
下 消息 : 


463568 


你 将 8 放 到 一 边 以 备 后 续 比 较 ， 并 计算 校 验 和 为 4+6+3+5+6 = 24， 
只 保留 最 后 一 位 数 (4) 。4 和 之 前 放 到 一 边 的 8 并 不 相等 ， 因 此 你 可 以 
肯定 消息 在 传输 途中 遭 到 了 破坏 。 这 时 ， 你 请 求 重 新 传输 消 轧 ， 直 到 
接收 到 新 拷贝 ， 然 后 再 次 计算 并 比较 校 验 和 。 你 可 以 一 直 这 么 做 ， 直 
到 得 到 一 条 校 验 和 正确 的 消息 为 止 。 


所 有 这 一 切 似乎 太 过 美好 ， 不 可 能 成 真 。 还 记得 吗 ? 一 个 纠 错 系 
统 的 “杂项 ? 束 是 在 发 送 消 轧 本 号 以 外 要 发 送 的 额外 信息 量 。 好 吧 ， 我 
们 似乎 得 到 了 终极 低 灯 项 系统 ， 因 为 不 管 消息 有 多 长 ， 我 们 只 需 多 添 
加 一 位 数 ( 校 验 和 ) 就 能 侦 测 错误 ! 


啊 ， 结 采 证 明 人 简单 校 验 和 系统 太 过 关 好 ， 不 能 成 真 。 位 单 校 验 和 
的 问题 是 : 上面 描 述 到 的 简单 校 验 和 最 多 只 能 在 消 虫 中 侦 测 出 一 错 
座 。 如 末 有 两 个 或 更 多 错误 ， 人 简单 校 验 和 或 许 能 侦 测 到 它们 ,但 也 有 
可 能 侦 测 不 到 。 让 我 们 来 看 看 这 个 问题 的 一 些 例子 : 


原始 消息 


有 一 处 错误 的 消息 


普 误 的 消息 


有 两 处 (不同) 错误 的 消息 


原始 消息 (46756) 和 前 面 一 样 ， 其 校 验 和 也 没 变 (8) 。 下 一 行 
的 消息 有 一 个 错误 〈 第 一 个 数 是 1 而 不 是 4) ， 其 校 验 和 为 5。 事实 上 ， 
你 很 有 可 能 说 服 目 己 ， 更 改 任何 单 个 数 子 都 会 导致 与 8 不 同 的 校 验 和 ， 
因此 你 保证 能 侦 测 到 请 轧 中 的 任何 单个 错误 。 要 证 明 这 一 点 永远 为 真 
并 不 难 : 如 果 只 有 一 个 错误 ， 简 单 校 验 和 绝对 能 保证 侦 测 到 它 。 


再 下 一 行 ， 我 们 看 到 一 条 市 有 两 处 错误 的 消息 : 前 两 个 数 都 被 蔡 
换 了 。 这 条 消息 的 校 验 和 恰好 是 4。 而 由 于 4 和 原始 校 验 和 8 不 同 ， 收 到 
这 条 消 忌 的 人 能 侦 测 到 出 现 了 一 个 错 座 。 然 而 ， 最 后 一 行 束 遇 到 了 碾 
烦 。 这 也 是 一 条 有 两 处 错误 的 请 轧 ， 也 是 前 两 位 数 出 错 。 但 出 错 的 两 
位 数 的 值 不 同 ， 而 且 这 条 有 两 处 错误 的 消息 的 校 验 和 恰好 也 是 8 一 一 和 
原始 校 验 和 一 样 ! 因此 接收 这 条 请 妃 的 人 将 不 能 侦 测 到 请 轧 中 有 错 


误 。 


六 运 的 是 ， 我 们 可 以 通过 对 校 验 和 把 戏 进行 一 些微 调 来 解决 这 个 
问题 。 第 一 步 古 定义 一 种 新 的 校 验 和 。 让 我 们 称 这 种 新 的 校 验 和 为 “ 阶 
梯 ” 校 验 和 (staircase checksum) ， 因 为 这 个 名 字 有 助 于 通过 想象 在 把 
楼 梯 进 行 计 算 。 想 象 你 处 于 一 个 楼 梯 的 底部 ， 楼 梯 台 阶 编号 为 1、2、 
3..….. 依 此 类 推 。 要 计算 阶梯 校 验 和 ， 你 像 之 前 一 样 把 数字 相 加 ， 但 每 
个 数 都 要 和 该 数字 所 在 位 阶 数 相 乘 ， 每 个 数 都 比 前 一 个 数 大 一 个 位 
阶 。 最 后 ， 你 只 保留 最 后 一 位 数 ， 和 位 单 校 验 和 一 样 。 因 此 ， 如 有 果 消 
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和 之 前 类 似 ， 阶 梯 校 验 和 通过 下 先 计算 阶梯 和 来 结算 : 


(1x4) + (2x6) + (3x7) + (4x5) + (5x6) 


=4+12+21+20+30 


然后 只 保留 最 后 一 位 数 ， 也 就 是 7。 因 此 “46756” 的 阶梯 校 验 和 为 


所 有 这 一 切 想 说 明 什 么 ?如 果 你 同时 使 用 简单 校 验 和 及 阶梯 校 验 
和 和， 那么 你 就 保证 能 侦 测 到 任何 消息 中 两 处 错误 。 因 此 ， 用 我 们 新 的 
校 验 和 把 戏 来 传输 原始 消息 会 多 出 两 个 数字 首先 是 简单 校 验 和 ， 其 
次 是 阶梯 校 验 和 。 比 如 ， 消 息 “46756” 会 以 : 


4675687 


传输 。 当 你 收 到 消 居 时 ， 你 仍然 必须 提前 知道 会 运用 哪些 把 戏 。 
但 假设 你 确实 知道 ， 那 么 检查 错误 殊 像 使 用 位 单 校 验 和 一 样 容易 。 在 
这 个 例子 中 ， 你 先 把 最 后 两 个 数 (简单 校 验 和 8 及 阶梯 校 验 和 7) 放 一 
边 ， 然 后 计算 消息 其 余部 分 的 简单 校 验 和 (46756 的 简单 校 验 和 是 
8) ， 阶 梯 校 验 和 也 要 计算 (结果 为 7)”。 如 果 两 个 计算 后 的 校 验 和 值 
和 发 送 的 两 个 校 验 和 匹配 《这 个 例子 中 的 两 个 值 的 确 匹配 ) ， 你 就 可 
以 你 证 这 条 消息 要 么 是 正确 的 ， 要 人 么 至 少 有 三 处 错误 。 


下 一 张 表 显 示 了 这 两 种 校 验 和 的 实际 运用 情况 。 这 张 表 和 前 面 那 
张 表 几乎 一 模 一 样 ， 除 了 在 每 行 末 尾 加 上 了 阶梯 校 验 和 ， 以 及 新 加 了 
一 行 作 为 额外 的 例子 。 当 消息 中 有 一 处 错误 时 ， 我 们 发 现 这 条 消息 的 
简单 校 验 和 及 阶梯 校 验 和 均 与 原始 消息 的 不 同 (简单 校 验 和 是 5 而 不 是 


8， 阶 梯 校 验 和 是 4 而 不 是 7) 。 当 消息 中 有 两 处 错误 时 ， 有 可 能 两 个 校 
验 和 值 都 不 相同 ， 如 表 中 第 3 行 的 侧 单 校 验 和 是 4 而 不 是 8， 阶 梯 校 验 和 
是 2 而 不 是 7。 但 正如 我 们 已 经 发 现 的 ， 有 时 候 当 消息 中 有 两 处 错误 
时 ， 该 消 忌 的 简单 校 验 和 不 会 改变 。 表 中 第 4 行 束 是 这 种 情况 的 一 个 例 
子 ， 其 简单 校 验 和 仍然 是 8。 但 因为 阶梯 校 验 和 和 原始 消息 的 不 同 (9 
而 不 是 7) ， 我 们 仍然 知道 这 条 消息 有 府 。 在 表 中 最 后 一 行 ， 我 们 能 
到 还 有 另外 一 种 情况 : 这 条 含有 两 处 错误 的 消 妃 的 简单 校 验 和 不 同 

(是 9 而 不 是 8) ,但 其 阶梯 校 验 和 却 一 样 (7) 。 不 过 ， 这 里 的 意思 是 
我 们 仍然 能 侦 测 到 错误 ， 因 为 两 个 校 验 和 中 至 少 有 一 个 和 原始 校 验 和 
不 同 。 尽 管 需要 用 一 些 稍微 技术 性 的 数学 来 证 明 ， 但 有 一 点 征 确认 无 
疑 的 : 只 要 错误 不 超过 两 处 ， 你 束 都 能 够 侦 测 到 错误 。 


简单 和 阶 校 验 和 


有 了 两 处 〈 不 同 ) 错误 的 消息 
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既然 我 们 对 基本 方法 有 了 初步 了 解 ， 我 们 需要 意识 到 ， 刚 刚 摘 述 
的 校 验 和 把 戏 只 能 保证 在 相对 较 短 的 消息 上 和 雪 效 〈 少 于 10 位 数 ) 。 但 
与 此 非常 类 似 的 概念 能 被 应 用 在 较 长 的 消 忌 上 。 通 过 一 定 的 简单 操作 
序列 ， 如 把 数字 加 起 来 ， 将 数字 和 其 位 阶 相 乘 ， 或 按照 固定 模式 将 一 
些 数 字 交 换 ， 我 们 还 是 有 可 能 定义 校 验 和 的 。 尽 管 这 听 起 来 很 复杂 ， 
计算 机 却 能 感 不 费力 地 迅速 计算 这 些 校 验 和 。 结 果 证 明 ， 这 些 方法 用 
在 侦 测 消 恩 中 的 错误 上 极其 有 效 且 实用 。 


-J 


上 面 描述 的 校 验 和 把 戏 只 生成 两 个 校 验 和 数字 (简单 校 验 和 及 阶 
梯 校 验 和 ) ， 但 真正 的 校 验 和 通常 会 生成 比 这 长 得 多 的 数字 一 有 时 
长 达 150 位 。 (我 在 本 章 中 讲 的 都 是 十 进 制 数 0~9， 而 不 是 二 进 制 数 0 
和 1， 二 进 制 数 在 计算 机 通信 中 要 更 经 常 被 用 到 。) 重点 是 ， 校 验 和 的 
长 度 (要 么 和 上 面 的 例子 一 样 是 2 位 ， 要 么 和 在 实际 中 运用 的 校 验 和 一 
样 ， 有 近 150 位 ) 是 固定 的 。 不 过 ， 尽 管 所 有 校 验 和 算法 生成 的 校 验 和 
长 度 部 是 固定 的 ， 只 要 你 愿意 ， 你 都 能 计算 消 忌 的 校 验 和 。 因 此 ， 对 
于 非常 长 的 消息 来 说 ， 即 便 一 个 相对 较 大 的 校 验 和 (如 150 位 数 ) ， 最 
终 和 消 居 本 喘 相 比 也 极 小 。 比 如 ,假设 你 从 互联 网 上 下 载 了 一 个 20 焰 
的 软件 包 ， 你 使 用 了 一 个 100 位 数 的 校 验 和 来 验证 它 的 正确 性 。 软 件 包 


的 校 验 和 也 比 不 上 软件 包 大 小 的 十 万 之 一 。 我 敢 肯 定 ， 你 会 认为 这 个 
杂项 水 平 可 以 接受 ! 而 数学 家 会 告诉 你 ， 使 用 这 种 长 度 的 校 答 和 侦 测 
错误 ， 其 失败 的 概率 极其 微小 ， 在 现实 中 几乎 不 可 能 失败 。 


和 前 面 一 样 ， 这 里 也 有 几 处 重要 的 技术 细 市 。 并 不 是 任何 一 个 百 


位 数 校 验 和 系统 对 失败 都 有 如 此 高 的 抵抗 性 。 这 需要 一 种 被 计算 机 科 
学 家 称 为 加 密 哈 希 函数 (cryptographic hash function) 的 特定 校 验 和 ， 


尤其 是 在 屎 意 政和 人 而 非 糟糕 信道 的 随机 变动 对 信息 作出 改变 时 。 这 是 
个 非常 现实 的 问题 ， 因 为 也 许 回 有 一 名 收 恶 墨客 试图 更 改 这 个 20 兆 的 
软件 包 ， 并 让 其 具有 相同 的 100 位 校 迷 和 数 ， 而 这 个 不 同 的 软件 其 实证 
要 控制 你 的 计算 机 ! 使 用 加 密 哈 布 函数 能 消除 这 种 可 能 性 。 


定位 把 戏 


既然 知道 了 校 验 和 ， 现 在 我 们 可 以 回 到 最 初 同时 侦 测 和 纠正 通信 
错误 的 问题 上 了 。 我 们 已 经 知道 如 何 做 到 这 一 点 ， 要 么 使 用 低 效 的 重 
复 把 戏 ， 要 么 使 用 高 效 的 元 余 把 戏 。 但 还 是 让 我 们 移 回 到 这 个 问题 ， 
因为 我 们 从 未 真正 地 了 解 代 码 字 是 如 何 创 造 的 ， 而 代码 字 则 是 这 些 把 
戏 的 关键 成 分 。 我 们 的 确 有 用 英语 单词 措 述 数字 的 例子 ， 但 那 种 代码 
字 不 如 计算 机 实际 使 用 的 代码 字 高 效 。 我 们 也 看 过 一 段 汉 明代 码 的 真 
实例 子 ， 但 没有 解释 一 开始 代码 字 是 如 何 生成 的 。 


因此 ， 现 在 我 们 要 学 习 另 一 套 可 能 的 代码 字 ， 用 来 执行 元 余 把 
戏 。 因 为 这 种 宛 余 把 戏 很 特别 ， 它 能 让 你 迅速 定位 一 处 错误 ， 我 们 称 
其 为 “定位 把 戏 ” (the pinioint trick) 。 


正如 我 们 在 校 验 和 把 戏 中 做 的 一 样 ， 我 们 将 和 完全 由 数字 0~9 组 
成 的 消 忌 打 交道 ， 但 你 要 记 住 ， 这 只 是 为 了 方便 起 见 。 将 字母 消 恩 转 
译 成 数字 很 简单 ， 因 此 在 这 里 描述 的 技术 能 被 应 用 到 任何 消 妃 上。 

为 简单 起 见 ， 让 我 们 假设 消息 恰好 有 16 个 数字 ， 但 这 并 非 该 技术 
在 现实 中 的 应 用 。 如 果 你 有 一 条 长 消 轧 ， 将 其 打 雁 成 16 位 数 长 的 块 ， 
并 单独 处 理 每 块 数据 。 如 果 消 息 比 16 个 数字 短 ， 用 0 补 成 16 位 数 。 


定位 把 戏 的 第 一 步 是 重 狐 排列 请 轧 中 的 16 个 数 ， 将 其 排列 成 一 个 
从 左 往 右 、 目 上 向 下 读 的 方 框 。 如 末 实 际 消 乱 十 : 


4837543622563997 


重新 排列 为 : 


这 些 简 单 校 验 和 的 计算 方式 和 前 面 一 样 。 比 如 ， 权 得 到 第 二 行 的 
校 验 和 ， 你 需要 计算 5+4+3+6 = 18， 并 保留 最 后 一 位 数 8。 


定位 把 戏 的 下 一 步 是 计算 每 一 栏 的 简单 校 验 和 ， 并 添加 在 每 列 的 
底部 : 
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| 
和 前 面 一 样 ， 求 简单 校 验 和 的 方法 很 清楚 。 比 如 ， 要 得 到 第 二 行 
的 校 验 和 ， 你 需要 计算 3+3+5+9 = 20， 并 保留 最 后 一 位 数 0。 
定位 把 戏 的 下 一 步 古 重新 排列 所 有 数 ， 让 其 能 以 一 次 一 个 数 的 方 
式 存储 或 传输 。 你 通过 从 左 往 右 、 目 上 向 下 读 的 方式 读数 。 因 此 ， 最 
后 你 会 得 到 如 下 24 位 数 的 消 妃 : 


483725436822565399784306 


现在 ， 想 象 你 已 经 收 到 了 一 条 使 用 定位 把 戏 传输 的 消 轧 。 你 需要 
采取 哪些 步 又 来 得 到 原始 消息 ， 纠 正 其 中 出 现 的 任何 通信 和 错误 ? 让 我 
们 举 个 例子 来 说 明 。 原 始 的 16 位 数 消 妃 和 上 面 的 一 样 ， 但 为 了 让 事情 


变 得 更 有 趣 ， 假 设 出 现 了 一 处 通信 和 错误， 其 中 一 个 数 被 奉 换 了 。 现 在 
还 不 必 担 心 被 蔡 换 的 数 是 哪个 ， 我 们 很 快 束 能 运用 定位 把 戏 来 确定 。 


假设 你 收 到 的 24 位 数 消息 是 : 
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你 要 做 的 第 一 步 束 是 把 数字 放 入 一 个 五 行 五 列 的 方 框 中 ， 最 后 一 
行 和 最 后 一 列 都 对 应 随 原始 消 轧 一 起 发 送 的 校 迷 和 数字 : 


接 下 来 ， 计 算 每 一 行 每 一 列 四 个 数 的 简单 校 验 和 ， 在 接收 到 的 校 
验 和 值 卷 边 靳 建 一 行 和 一 列 ， 并 在 其 中 记录 计算 结果 : 
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这 里 会 出 现 两 组 校 验 和 值 : 你 发 送 的 ， 以 及 你 计算 出 来 的 ， 记 住 
这 一 把 至 关 重 要 。 在 绝 大 多 数 情 况 下 ， 两 僚 值 部 一 样 。 事 实 上 ， 如 采 
它们 都 一 样 ， 你 可 以 得 出 结论 ， 收 到 的 消息 极 有 可 能 是 正确 的 。 但 如 
果 出 现 一 个 通信 错误， 计算 得 出 的 一 些 校 验 和 值 会 和 发 送 的 不 同 。 注 
意 ， 这 个 例子 中 有 两 个 不 同 之 处 : 第 三 行 的 5 和 0 不 同 ， 第 二 列 的 3 和 8 
不 同 。 冲 突 的 校 验 和 在 框 中 被 标注 了 出 来 : 
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关键 在 于 : 这 些 不 同 之 处 的 位 置 正 好 说 明了 通讯 错误 出 现 的 位 
置 ! 错误 肯定 是 在 第 三 行 (因为 其 他 行 的 校 验 和 都 正确 ) ， 错 误 也 肯 
定 是 出 现在 第 二 列 (因为 其 他 列 的 校 验 和 都 正确 ) 。 正 如 你 能 在 下 图 
中 看 到 的 ， 这 将 错误 的 可 能 性 圈定 为 一 种 一 一 框 中 标 出 的 7: 


中 
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但 这 还 不 是 全 部 ， 我 们 定位 了 错误 ， 但 还 没 纠 正 它 。 和 幸运 的 是 ， 
很 容易 做 到 这 一 点 : 我们 只 要 用 一 个 能 让 两 个 校 验 和 都 正确 的 数字 车 
换 出 错 的 7 即 可 。 我 们 能 看 出 ， 第 二 栏 的 校 验 和 本 应 为 3， 但 结果 却 是 
8。 换 句 话说， 校 验 和 需要 减 5。 我 们 把 错误 的 7 减 5， 得 到 2: 


你 甚至 可 以 通过 检查 第 三 行 来 验证 这 一 改变 。 第 三 行 的 校 验 值 现 
在 变 成 了 5， 和 收 到 的 校 验 和 一 怪 。 错 误 同 时 被 定位 和 纠正 了 ! 最 后 一 
步 很 明显 ， 就 是 将 纠正 后 的 原始 16 位 数 消 息 从 五 行 五 列 的 框 中 取出 ， 
方法 是 从 左 往 右 ， 自 上 向 下 读 《当然 要 忽略 最 后 一 行 和 最 后 一 列 ) 。 


结果 是 : 
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这 和 我 们 一 开始 用 到 的 消 妃 相 同 。 


在 计算 机 科学 中 ， 定 位 把 戏 的 名 称 是 “二 维 奇 偶 校 验 码 ” (two- 
dimensional parity) 。 奇 偶 校 验 码 这 个 词 的 意思 和 简单 校 验 和 一 样 , 计 
算 机 在 处 理 二 进 制 数字 时 经 党 用 到 它 。 而 奇偶 校 验 码 被 形容 为 二 维 ， 
征 因为 消息 放 在 有 两 个 维度 的 表格 ( 行 和 列 ) 中 。 二 维 奇 偶 校 验 码 在 
一 些 真正 的 计算 机 系统 中 也 有 和 运用， 但 并 不 如 其 他 一 些 元 余 把 戏 高 
效 。 我 在 这 里 解释 它 的 原因 是 ， 它 能 很 容易 地 具 化 并 展现 在 不 要 求 复 


杂 数 学 的 情况 下 ， 于 当今 计算 机 系统 中 的 流行 代码 背后 发 现 并 纠正 错 
误 的 风味 。 


现实 世界 中 的 纠 错 及 侦 错 


纠 错 码 于 20 世 纪 90 年 代 问 世 ， 距 离 电 子 计算 机 诞生 后 不 久 。 回 顾 
一 下 不 难看 出 原因 : 早期 计算 机 相当 不 可 靠 ， 组 件 经 和 常 产 生 错 误 。 但 
纠 错 码 的 真正 根源 出 现 得 还 要 早 ， 根 源 在 电报 和 电话 等 通信 系统 
因此 ， 这 两 大 导致 纠 错 码 发 生 的 事件 都 发 生 在 贝尔 电话 公司 的 研究 实 
验 室 中 也 就 不 奇怪 了 。 我 们 故事 中 的 两 位 糯 雄 和 克 劳 德 :香农 (Claude 
Shannon) 和 理 查 德 : 汉 明 都 是 贝尔 实验 室 的 研究 人 员 。 前 面 已 经 介绍 
了 汉 明 : 正 臣 因为 他 对 公司 计算 机 在 周末 月 涡 的 层 怒 ， 直 接 导 致 了 第 
一 批 纠 错 码 的 发 明 ， 也 就 是 现在 闻名 的 汉 明 代码 。 


不 过 ， 纠 错 码 只 是 一 个 更 大 专业 的 一 部 分 ， 这 个 专业 被 称 为 信息 
理论 学 (information theory) ， 而 绝 大 多 数 计算 机 科学 家 将 信息 理论 学 
的 诞生 归 因 于 克 劳 德 : 香 农 在 1948 年 发 表 的 一 篇 论文 。 香 农 的 一 本 目 传 
中 将 这 篇 名 为 《通信 的 数学 理论 》 (The Mathematical Theory of 
Communication) 的 章 越 论文 形容 为 “信息 时 代 的 大 宪章 *”。 欧 文 :里 德 

(Irving Reed) 这 么 形容 这 篇 论文 : “本 世纪 只 有 几 件 事 能 在 对 科学 和 
工程 学 的 影响 力 上 超越 (这 篇 论文 。 通 过 这 篇 里 程 碑 式 的 论文 .….… 


他 极 大 地 改变 了 通信 理论 和 实践 的 所 有 方面 ”欧文 :里 德 十 里 德 一 看 

农 代 码 的 共同 发 明 人 ， 我 们 将 在 下 面 提 到 里 德 一 香农 代码 。 为 什么 沉 

誉 如 此 之 高 ? 香农 通过 数学 展示 了 ， 有 可 能 从 根本 上 通过 一 个 嘲 杂 
的 、 引 发 错误 的 链接 实现 错误 率 极 低 的 通信 。 直 到 数 十 年 后 ， 科 学 
们 才 在 现实 中 接近 实现 了 香农 的 理论 最 大 通信 率 。 


洪 


兴 


顺便 说 一 下 ， 香 农 的 兴趣 非常 广 沁 。 作 为 1956 年 达 特 茅 斯 人 工 入 

能 大 会 《将 在 第 六 章 末 谈 到 ) 的 四 位 主要 组 织 者 之 一 ， 他 积极 参与 了 

另 一 领域 的 创立 : 人 工 知 能。 这 还 没完 。 他 还 菏 单 轮 车 ， 并 制造 了 一 

辆 令 人 难以 置信 的 单 轮 车 。 这 辆 单 轮 车 有 一 个 椭圆 轮子 ， 意 味 着 车 手 
随 着 单 纶 车 前 进 可 以 上 下 移动 ! 


香农 的 工作 将 汉 明 代码 放 到 了 一 个 更 大 的 理论 环境 中 ， 并 为 许多 
深入 发 展 打下 了 基础 。 目 此 以 后 ， 汉 明代 码 被 用 于 一 些 最 早期 的 计算 
机 中 ， 并 仍 广 泛 用 于 一 些 特 定 种 类 的 内 存 系统 中 。 里 德 一 所 罗 门 
(Reed-Solomon) 代码 是 另 一 类 重要 的 代码 。 这 些 代 码 能 被 用 来 纠正 
每 个 代码 字 中 的 众多 错误 。[ 与 这 里 的 〈7, 4) 汉 明 代码 截然 不 
同 ， 汉 明代 码 只 能 纠正 7 位 数 代 码 字 中 的 一 个 错误 。] 里 德 一 所 
罗 门 代码 基于 一 个 名 为 有 限 域 代 数 (finite field algebra) 的 数学 分 支 ， 
但 你 可 以 非常 粗略 地 想象 ， 它 结合 了 阶梯 校 验 和 及 二 维 定点 把 戏 的 特 
色 。CD、DVD 和 计算 机 硬盘 中 都 用 到 了 里 德 一 所 罗 门 代码 。 


校 验 和 在 现实 中 的 运用 也 很 广泛 ， 一 般 是 用 于 侦 测 而 非 纠 正 错 
误 。 也 许 最 常见 的 例子 就 算 以 太 网 了 ， 现 今 地 球 上 几乎 所 有 计算 机 都 
用 这 一 联网 协议 。 以 太 网 中 应 用 了 一 种 被 称 为 CRC-32 的 校 验 和 来 侦 测 
普 误 。 最 为 普遍 的 互联 网 协议 TCP 也 在 其 发 送 的 每 块 (或 包 ) 数据 上 
使 用 校 验 和 。 校 验 和 不 正确 的 包 直 接 被 丢弃 了 ， 因 为 TCP 被 设计 用 来 
在 以 后 必要 时 自动 传输 这 些 包 。 发 布 在 互联 网 上 的 软件 包 通 常 使 用 校 
验 和 验证 : 其 中 一 种 流行 的 校 验 和 是 MD5， 另 一 种 是 SHA-1。 这 两 种 
校 验 和 都 属于 加 密 哈 希 函数 ， 为 抵御 恶意 算 改 软件 提供 保护 ， 也 能 防 
止 随机 通信 错误 。MD5 校 验 和 约 有 40 位 数 长 ，SHA-1 生 成 的 数 约 有 50 
位 。SHA-1 的 同类 校 验 和 中 有 些 抗 错 性 甚至 要 更 好 ， 如 SHA-256 ( 约 
75 位 数 ) 和 SHA-512 ( 约 150 位 数 ) 。 


纠 错 及 侦 测 代码 这 门 科 学 不 断 壮 大 。 自 20 世 纪 90 年 代 开 始 ， 一 种 
名 为 低 密 度 奇 偶 校 验 码 (low-density parity-check codes) 的 方法 受到 极 
大 关注 。 这 些 代码 如 今 的 用 途 非 常 广泛 ， 从 卫星 电视 到 通过 深海 光线 
进行 的 通信 。 下 次 你 在 周末 享受 高 清 卫 星 电视 时 ， 不 妨 遐 思 一 下 这 个 
令 人 回味 的 反讽 : 正 是 由 于 理 查 德 : 汉 明 在 周末 与 早期 计算 机 的 斗争 中 
产生 了 困扰 ， 才 有 了 我 们 现在 周末 的 娱乐 。 


第 六 章 
图 形 识别 


一 一 从 经 验 中 学 习 


分 析 引 擎 没有 原创 任何 东西 的 权利 。 它 只 能 按照 我 们 的 指令 执行 任何 事情 。 


一 艾 达 . 勒 其 蕾丝 (Ada Lovelace) ， 


摘自 她 1843 年 有 关 分 析 引 擎 的 笔记 


在 前 面 各 章 我 们 探索 的 领域 里 ， 计 算 机 的 能 力 都 要 远 超 人 的 能 
力 。 比 如 ,计算 机 通常 可 以 在 一 两 秒 内 加 密 或 解密 一 个 大 文件 ， 而 人 
通过 手动 计算 执行 相同 的 任务 则 需要 数 年 时 间 。 举 个 更 极端 的 例子 ， 
想象 一 下 ， 假 设 让 人 根据 第 三 革 中 描述 的 算法 手动 计算 数 十 亿 网 页 的 
PageRank 权 重 。 这 项 任务 太 大 ， 在 现实 中 我 们 不 可 能 完成 这 项 任务 。 
但 互联 网 搜索 公司 的 计算 机 在 持续 不 断 地 执行 这 些 计算 。 


而 在 本 章 ， 我 们 将 审视 一 个 人 类 具有 天 然 优 势 的 领域 : 图 形 识别 
领域 。 图 形 识别 是 人 工 智 能 的 一 部 分 ， 包 括 面部 识别 、 物 体 识别 、 语 
首 识 别 和 笔迹 识别 等 任务 。 更 具体 的 例子 ， 如 判定 一 张 照 片 古 不 是 你 
姊妹 的 照片 ， 或 判定 手写 信封 上 的 城市 及 州 名 。 因 此 ， 图 形 识别 可 以 
更 通俗 地 定义 为 ， 让 计算 机 基于 输入 数据 “聪明 地 ”行动 的 任务 ， 这 些 
数据 包含 大 量 的 变量 。 


给 “聪明 地 ?加 双 引 号 的 理由 很 充分 : 计算 机 是 否 能 展现 出 真正 的 
智能 ， 这 个 问题 具有 高 度 争议 性 。 本 章 的 开篇 引言 代表 了 这 一 争论 中 
最 早 的 论述 之 一 : 艾 达 - 勒 关 荤 丝 于 1843 年 就 一 台 早 期 机 械 计算 机 的 设 
计 发 表 评 论 ， 这 人 台 早 期 计算 机 被 称 为 分 析 引 擎 (Analytical Engine) 。 
但 在 这 一 声明 中 ， 她 着 重 说 明了 计算 机 缺乏 原创 性 : 它们 必须 严格 遵 
循 人 类 程序 员 的 指令 。 一 段 时 间 以 来 ， 计 算 机 科学 家 们 就 计算 机 能 否 
从 根本 上 展现 出 智能 争论 不 体 。 而 如 条 把 哲学 家 、 神 经 科学 家 和 神学 
家 也 算 上 的 话 ， 这 一 争论 甚至 会 变 得 更 复杂 。 


幸运 的 是 ， 我 们 不 必 在 本 章 解决 机 器 智能 的 悖 论 。 从 我 们 的 目的 
出 发 ， 我 们 最 好 还 是 将 “智能 ”这 个 词 换 成 < 有 用 ”。 因 此 ， 图 形 识别 的 基 
本 任务 就 是 处 理 一 些 变量 极 多 的 数据 一 一 如 不 同 光 照 环 境 下 的 各 种 人 
脸 照 片 ， 或 不 同人 书写 许多 不 同 字 的 笔迹 样本 一 一 并 做 一 些 有 用 的 
事 。 达 无 疑问 ， 人 能 够 养 能 地 处理 这 些 数 据 : 我 们 能 以 令 人 难以 置信 
的 精确 度 识别 人 脸 ， 能 在 不 提前 查看 其 他 人 笔迹 样本 的 情况 下 ， 阅 读 
几乎 所 有 人 的 笔迹 。 计 算 机 在 处 理 这 些 任务 上 远 不 如 人 。 但 已 经 有 一 
些 精妙 的 算法 出 现 ， 能 让 计算 机 很 好 地 执行 一 些 特定 的 图 形 识别 任 
务 。 在 本 章 ， 我 们 将 学 习 三 种 这 样 的 算法 : 最 近邻 分 类 器 (nearest- 
neighbor classifier ) 、 决 策 树 (decision tree) 以 及 人 工 神 经 网 络 
(artificial neural network) 。 但 首先 ， 我 们 要 对 党 试 解决 的 问题 进行 更 
科学 的 描述 。 


问题 是 什么 ? 


从 一 开始 看 ， 图 形 识别 的 任务 种 类 多 得 似乎 超 乎 寻 第。 计算 机 能 
使 用 一 个 单独 的 图 形 识别 技术 工具 包 来 识别 笔迹 、 面 部 、 语 音 及 更 多 
东西 吗 ? 这 一 问题 的 可 能 答案 之 一 是 : 盯 着 我 们 的 脸 看 ， 人 脑 在 处 理 
多 种 多 样 的 识别 任务 上 速度 超 快 、 精 确 度 超 高 。 我 们 能 编写 一 个 计算 
机 程序 来 做 到 相同 的 事 吗 ? 


在 讨论 那样 一 个 程序 可 能 用 到 的 技术 之 前 ， 我 们 需要 统一 令 人 有 眼 
伦 纺 乱 的 多 种 任务 ， 定 义 一 个 单一 问题 让 我 们 来 芝 运 解决 。 要 实现 这 
一 上 入， 标准 做 法 是 将 图 形 识别 看 作 分 类 问题 。 我 们 假设 要 处 理 的 数据 
被 分 解 成 合理 大 小 的 块 ， 这 些 块 被 称 为 “样本 ， 每 一 个 样本 都 属于 可 
能 “类 ” (class) 的 固定 集 之 一 。 比 如 ， 在 一 个 人 脸 识别 问题 中 ， 每 一 个 
样本 都 是 一 张 人 脸 图 片 ， 而 类 则 是 系统 能 识别 出 的 这 些 人 的 喘 份 。 有 
一 些 问 题 只 有 两 个 类 。 这 方面 的 常见 例子 是 对 一 种 特殊 疾病 的 医学 诊 
断 ， 而 其 中 的 两 个 类 也 许 是 “健康 "和 “得 病 ”"， 这 样 每 个 数据 样本 就 能 组 
成 单个 病人 的 所 有 诊断 结果 (比如 ， 血 压 、 体 重 、X 光 照片 以 及 其 他 很 
多 方面 ) 。 因 此 ， 计 算 机 的 任务 就 是 处 理 其 从 未 见 过 的 新 数据 样本 ， 
并 将 每 个 样本 分 到 可 能 的 一 个 类 中 。 


具体 来 讲 ， 接 下 来 让 我 们 集中 精力 于 一 个 图 形 识别 任务 。 这 个 任 
务 是 识别 手写 数字 ， 其 中 一 些 典 型 样本 在 下 文 的 图 中 有 显示 。 这 个 问 
题 里 正好 有 10 个 类 : 数字 0、1、2、3、4、5、6、7、8 和 9。 因 此 ,， 任 
务 就 是 将 手写 数字 样本 分 到 其 所 属 的 类 中 。 当 然 ， 这 是 个 有 着 巨大 实 
际 影响 的 问题 ， 因 为 美国 和 其 他 国家 都 使 用 数字 邮编 表示 地 址 。 如 果 
计算 机 能 快速 旦 精确 地 识别 这 些 邮 编 ， 机 颖 分 类 信件 的 速度 就 要 比 人 


类 高 效 得 多 。 


很 显然 ， 计 算 机 并 没有 内 建 手写 数字 是 什么 样 的 知识 。 事 实 上 ， 
人 类 也 没有 这 种 内 建 知 识 : 通过 结合 其 他 人 的 详尽 教授 以 及 观看 我 们 


用 来 教授 目 己 的 例子 ， 我 们 学 会 了 如 何 去 识 别 数字 及 其 他 手写 符号 。 
这 两 种 策略 (详尽 教授 和 从 例子 中 学 习 ) 也 被 用 于 计算 机 图 形 识别 。 
不 过 ， 结 来 显示 ， 即 便 是 最 简单 的 任务 ， 详 尺 教 授 计 算 机 也 非常 低 
效 。 比 如 ， 可 以 将 我 房子 中 的 环境 控制 看 作 一 个 简单 的 分 类 系统 。 数 
据 样本 包含 当前 温度 和 时 间 ， 三 个 可 能 的 类 分 别 是 “开局 供暖 *、“ 开 启 
空调 * 和 “两 者 均 天 闭 *”。 因为 我 日 天 在 办 公 室 工 作 ， 我 在 日 天 整 将 系统 
设置 为 “两 者 均 关 闭 *”， 而 在 这 些 时 间 之 外 ， 如 采 温 度 过 低 就 会 “开启 供 
暧 *"， 如 采 温 度 过 高 束 会 “开启 空调 *。 因 此 ， 在 设置 温度 调节 器 的 过 程 
中 ， 我 在 某 种 程度 上 “教授 "了 系统 针对 这 三 个 类 执行 分 类 。 


不 笋 的 是 ， 没 人 能 详尽 地 “教授 ?计算 机 解决 更 有 趣 的 分 类 任务 ， 
如 下 一 页 的 手写 数字 。 因 此 计算 机 科学 家 们 转向 另 一 种 策略 : 让 计算 
机 自动 “学习 ”如 何 分 类 样本 。 基 本 策略 是 给 计算 机 大 量 标记 数据 
(labeled data) : 已 经 被 分 类 的 样本 。 后 面 的 图 就 给 出 了 一 些 用 于 手写 
数字 任务 的 标记 数据 。 因 为 每 个 样本 都 带 有 一 个 标签 (也 就 是 它 的 
类 ) ， 计 算 机 能 运用 多 种 分 析 把 戏 提取 出 每 个 类 的 特性 。 之 后 再 向 计 
算 机 提供 一 个 未 标记 的 样本 ， 通 过 选择 和 未 标记 样本 特性 最 接近 的 样 
本 ， 计 算 机 能 推测 未 标记 样本 的 类 。 


学 习 每 个 类 特性 的 过 程 通 沼 被 称 为 “训练 >"， 而 标记 数据 则 是 “训练 
数据 ”。 因 此 ， 概 括 来 说 ， 图 形 识别 任务 分 为 两 个 阶段 : 首先 是 训练 阶 


其 次 是 分 类 阶段 ， 计 算 机 


记 训 练 数据 学 习 类 ; 


标 


计算 机 基于 一 些 


段 ， 


记 的 数据 样本 进行 分 类 。 


不 


对 新 的 未 忆 
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写 数字 


计算 机 的 任务 是 将 每 个 手 


。 在 这 个 例子 中 ， 


可 以 说 绝 大 多 数 图 形 识别 任务 都 是 分 类 问题 


放大 六 


分 到 数字 0、1、...... 


数 纪 


HH 


来 源 ， 乐 康 (LeCun) 等 人 的 MNIST 数 据 。 


最 近邻 分 类 把 戏 


下 面 这 个 分 类 任务 很 有 趣 : 你 能 只 根据 一 个 人 的 家 寿 住 址 ， 预 测 
那个 人 会 同 哪 个 政治 党 派 捐 赠 吗 ? 很 显然 ， 这 个 例 于 中 的 分 类 任务 不 
能 以 完美 的 精确 度 执 行 ， 即 便 是 人 也 不 行 : 一 个 人 的 地 址 并 不 能 透露 
足够 多 的 信息 让 你 预测 这 个 人 的 政治 倾 同 。 不 过 ， 不 管 怎 样 ， 我 们 都 
愿意 训练 一 个 分 类 系统 ， 让 其 仅仅 根据 房屋 地 址 ， 预 测 这 个 人 最 有 可 


能 癌 哪 个 政 物 捐赠 。 
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要 训练 一 个 分 类 器 ， 计 算 机 需要 一 些 标记 数据 。 在 这 个 例子 中 ， 每 个 数据 样本 (一 个 手写 数 


字 ) 都 带 有 一 个 表明 其 所 属 具 体 数 字 的 标签 。 标 签 在 左边 ， 训 练 样本 在 右边 框 内 。 


数据 来 源 : 乐 康 (LeCun) 等 人 的 MNIST 数 据 。 


下 页 的 图 显示 了 一 些 可 能 补 用 于 这 一 任务 的 训练 数据 。 这 张 图 古 
2008 年 美国 总 统 大 选中 堪萨斯 州 一 个 社区 居民 实际 捐赠 的 地 图 。 (也 


许 你 会 对 这 个 社区 的 名 字 感 兴趣 ， 这 是 堪 耳 斯 州 威 奇 塔 市 学 院 山 社 
区 。) 为 便于 辨认 ， 地 图 上 并 没有 显示 街道 名 ， 但 捐赠 了 的 每 栋 房屋 
的 实际 地 理 位 置 都 在 地 图 上 进行 了 精确 的 标记 。 向 民主 党 人 捐赠 的 房 
屋 被 标记 为 “D”， 疝 共和 党 人 捐赠 的 房屋 被 标记 为 “R”。 


训练 数据 如 此 之 多 。 当 有 一 个 新 样本 需要 被 分 为 民主 党 人 或 共和 
党 人 时 ， 我 们 要 怎么 做 ? 下 面 的 图 具体 地 展示 了 这 个 例子 。 训 练 数据 
和 上 一 幅 图 中 的 一 样 ， 但 男 外 添加 了 两 处 用 问号 表示 的 新 地 点 。 让 我 
们 首先 关注 上 方 的 问号 。 只 是 警 一 眼 ， 不 用 淮 试 做 任何 科学 的 事 ， 你 
觉得 这 个 问号 最 后 可 能 属于 哪 一 类 ? 这 个 问号 似乎 被 民主 党 人 捐赠 所 
围绕 ， 因 此 “D” 似 乎 是 个 相当 有 可 能 的 选项 。 那 男 一 个 在 左下 方 的 问号 
呢 ? 这 个 问号 并 没有 完全 被 共和 党 人 捐赠 围绕 ， 但 其 所 在 位 置 更 像 是 
在 共和 和 党 人 领地 而 非 民 主 和 党 人 领地 内 ， 因 此 “R” 会 定 个 好 推测 。 


用 于 预测 政党 捐赠 的 训练 数据 。“D” 代 表 向 民主 党 人 捐赠 的 房屋 ,“R” 代 表 向 共和 党 人 捐赠 的 房 


数据 来 源 : 《 哈 芬 顿 邮 报 》， 选 金 竞 赛 项 目 (Fundrace project) 。 


不 管 你 是 否 相 信 ， 我 们 刚刚 车 握 了 迄今 为 止 发 明 的 最 强大 、 最 有 
用 的 图 形 识别 技术 之 一 : 一 种 被 计算 机 科学 家 称 为 最 近邻 分 类 器 的 方 


法 。“ 最 近邻 ”把 戏 做 的 事 ， 正 如 其 名 字 所 表达 的 含义 一 样 。 当 你 获得 
一 个 未 分 类 的 数据 样本 时 ， 首 移 在 训练 数据 中 寻找 该 样本 的 最 近邻 ， 


其 次 将 最 近邻 所 属 的 类 作为 你 的 预测 。 在 下 图 中 ， 这 束 古 推测 离 每 个 
问号 最 近 的 字母 。 


这 一 把 戏 男 一 个 稍微 成 熟 的 版 本 被 称 为 “EK 个 最 近邻 ”(K nearest- 
neighbors) ，K 代 表 3 或 5 这 样 的 小 数字 。 在 这 张 图 中 ， 你 要 检查 问号 的 
K 个 最 近邻 ， 并 选择 在 这 些 邻 近 对 象 中 最 受 欢 迎 的 类 。 我 们 可 以 在 下 图 
中 看 到 实例 。 在 这 里 ， 离 问号 最 近 的 一 个 相 邻 对 象 是 共和 党 人 捐赠 ， 
因此 最 近邻 把 戏 最 商 单 的 形式 会 将 这 个 问号 归 为 "<R”。 但 如 采 我 们 转 而 
使 用 3 个 最 近 分 方法， 我 们 发 现 其 中 有 两 家 是 民主 党 捐赠 ， 一 家 十 共和 
党 捐赠 一 一 在 这 一 特定 组 合 的 社区 中 ， 民 主 党 捐赠 要 更 受 欢 迎 ， 于 十 


问号 被 归 为 “D”。 


那么 ， 我 们 该 使 用 多 少 相 邻 对 象 呢 ? 管 案 取 决 于 要 处 理 的 问题 。 
一 般 来 说 ， 实 际 工作 者 会 尝试 几 个 不 同 的 值 ， 看 哪个 值 效 采 最 好 。 这 
听 起 来 也 许 不 科学 ， 但 却 反 映 了 有 效 图形 识 别 系统 的 现实 。 有 效 的 图 
形 识别 系统 一 般 是 通过 组 合 运 用 数学 洞 见 、 民 好 的 判断 及 实际 经 验 创 
造 出 来 的 。 


属 的 类 。 上 


看 的 问号 是 *D”， 而 


使 用 最 近邻 把 戏 进行 分 类 。 每 个 问号 都 被 归 为 其 最 相 邻 对 象 所 
下 方 的 问号 则 是 “R”。 
数据 来 源 : 《 哈 芬 顿 邮 报 》， 选 金 竞 赛 项 目 (Fundrace project) 。 


不 同类 型 的 “最 近 ” 信 b 


到 目前 为 止 ， 我 们 所 着 手 的 问题 是 经 过 特意 挑选 的 ， 以 便 简 单 、 
直观 地 解释 一 个 数据 样本 成 为 另 一 个 数据 样本 “最 近 ” 邻 的 人 台 义 。 因 为 
每 个 数据 点 都 在 地 图 上 标示 了 出 来 ， 我 们 只 需 使 用 点 与 点 之 间 的 地 理 
距离 ， 束 能 得 出 相距 最 近 的 点 。 但 在 每 个 数据 样本 都 是 像 前 文 图 中 的 
手写 数字 时 ， 我 们 该 怎么 办 呢 ? 我 们 需要 一 些 方法 来 计算 两 个 不 同 手 
写 数 子 示例 之 间 的 “距离 *。 下面 的 图 束 展 示 了 这 样 一 种 方法 。 


这 一 方法 的 基本 理念 是 衡量 数字 图 像 之 间 的 区 别 度 ， 而 非 它 们 之 
间 的 地 理 距 离 。 区 别 度 以 百分比 形式 衡量 一 一 区 别 度 只 有 1% 的 图 像 古 
非常 相近 的 邻 ， 而 区 别 度 在 99% 的 图 像 则 相差 很 远 。 图 中 给 出 了 具体 例 
子 。 (在 图 形 识别 任务 中 ， 输 入 的 信息 会 进行 一 些 预 处 理 步 骤 ， 这 种 
情况 很 普 裔 。 在 本 例 中 ， 每 个 数字 都 补 调 整 为 同一 大 小 ， 并 位 于 图 像 
中 心 。) 在 图 中 最 上 方 的 一 行 中 ， 我 们 能 看 到 两 张 不 同 的 手写 2 图 像 。 
通过 对 这 些 图 像 进 行 某 种 程度 的 “减法 ”， 我 们 得 到 了 右边 的 图 像 。 这 
张 图 像 的 其 余地 方 部 十 日 色 ， 只 有 这 两 张 图 像 不 同 的 少数 地 方 为 黑 
色 。 结 果 显 示 ， 这 张 区 分 度 图 像 只 有 6% 的 地 方 是 黑色 的 ， 因 此 这 两 个 
手写 2 图 像 是 相对 近邻 。 男 一 方面 ， 在 图 中 最 下 方 的 一 行 ， 我 们 能 看 到 
不 同 数字 图 像 (一 个 2 和 一 个 9) 削减 后 的 结果 。 右 边 的 区 分 度 图 像 有 
从 多 黑 像 聚 操 ， 因 为 这 两 张 手 写 数字 图 像 在 很 多 地 方 不 同 。 事 实 上 ， 
这 张 区 分 度 图 像 有 21% 的 地 方 是 黑色 的 ， 因 此 这 两 张 手写 图 像 并 非特 别 
临近 的 邻 。 


(6% difference] 


[21% difference) 


第 一 张 图 减 去 第 二 张 图 ， 并 得 出 右边 的 新 图 


像 ， 新 图 像 中 突出 了 这 两 张 图 中 的 区 别 。 区 分 度 图 像 中 突出 部 分 所 占 的 百分比 ， 束 能 被 视 为 原 


始 图 像 之 间 的 “距离 ”。 


数据 来 源 : 乐 康 (LeCun) 等 人 的 MNIST 数 据 ，1998 年 。 


现在 我 们 了 解 了 如 何 计算 手写 数字 之 间 的 “距离 ”， 那 么 为 它们 建 
立 一 个 图 形 识别 系统 就 容易 了 。 我 们 从 大 量 训练 数据 一 一 就 像 前 文 图 
中 的 手写 数字 一 样 ， 但 例子 要 多 得 多 一 一 开始 。 这 类 图 形 识别 系统 的 
标准 系统 可 能 会 使 用 十 万 个 标记 例子 。 当 给 予 系统 一 个 未 标记 的 新 手 
写 数字 时 ， 系 统 会 在 十 万 个 例子 中 搜寻 ， 以 找到 一 个 和 被 分 类 的 例子 
最 接近 的 邻 。 记 住 ， 当 我 们 在 这 里 说 “最 近邻 时， 我 们 真正 说 的 是 最 


小 的 区 分 度 ， 通 过 上 图 中 的 方法 计算 。 未 标记 数字 会 个 打 上 和 最 近 令 h 
一 样 的 标签 。 


结 采 表明 ， 使 用 这 种 “最 近邻 ?距离 方法 的 系统 效 朱 相当 好 ， 精 确 
度 接近 97%。 研 究 人 员 们 投入 了 巨大 精力 去 寻找 更 加 成 熟 的 “最 近邻 ” 距 
离 定 义 。 运 用 最 先进 的 距离 衡量 法 ， 最 近邻 分 类 器 在 手写 数 子 上 的 精 
确 度 能 超过 99.5%。 这 一 精确 度 能 和 复杂 得 多 的 图 形 识别 系统 相 比 ， 比 
如 名 字 很 好 听 的 “支持 向 量 机 ” (support vector machine) 和 “回旋 神经 网 
络 ” (convolutional neural network) 。 最 近邻 把 戏 是 计算 机 科学 的 一 个 
真正 的 奇迹 ， 它 将 赏心悦目 的 简洁 性 和 令 人 印象 深刻 的 融 效 性 结合 在 
了 一 起 。 


之 前 我 曾 强 调 ， 图 像 识别 系统 分 为 两 个 阶段 运行 ， 学习 (训练 ) 
阶段 会 处 理 训练 数据 ， 提 取 类 别 中 的 一 些 特性 ， 分 类 阶段 会 为 未 标记 
的 新 数据 分 类 。 那 么 ， 我 们 此 前 审视 的 最 近邻 分 类 器 的 学 习 阶 段 呢 ? 


而 是 直接 使 用 最 近邻 把 戏 跳 到 了 分 类 阶段 。 这 正 生 最 近邻 分 类 融 的 特 
殊 属 性 : 它们 无 须 任 何 详尽 的 学 习 阶 段 。 在 下 一 部 分 ， 我 们 将 研究 允 


一 种 分 类 器 ， 在 其 中 学 习 扮 演 一 个 远 为 重要 的 角色 。 


20 个 问题 把 戏 : 决策 树 


“20 个 问题 ”游戏 对 计算 机 科学 家 有 一 种 特别 的 吸引 力 。 在 这 个 游 
戏 中 ， 一 名 玩家 想 着 一 个 物体 ， 而 其 他 玩家 必须 依靠 不 超过 20 个 是 非 
问题 的 答案 猜测 这 个 物体 的 吴 份 。 你 甚至 能 买 到 可 以 和 你 玩 20 个 问题 
游戏 的 小 型 手持 设备 。 尽 管 这 个 游戏 大 多 数 时 候补 用 于 取乐 儿童 ， 但 
成 年 人 玩 这 个 游戏 也 能 获得 令 人 惊讶 的 好 处 。 在 玩 这 个 游戏 一 段 时 间 
后 ， 你 开始 意识 到 有 “好 问题 ”和 *“ 坏 问题 ”。 好 问题 肯定 能 给 你 大 量 “ 信 
息 ”( 不 管 这 些 信息 意 味 着 什么 ) ， 而 坏 问题 则 不 能 。 比 如 ， 第 一 个 问 
题 问 “ 它 是 铜 做 的 吗 ”， 束 是 个 坏 主意 ， 因 为 答案 是 “不 是 ”， 可 能 性 的 范 
畴 只 被 缩小 了 一 点 点 。 这 些 有 关 好 问题 和 坏 问 题 的 直觉 处 于 一 个 极 有 
吸引 力 的 领域 一 一 信息 理论 学 一 一 的 核心 。 它 们 同样 也 是 一 种 简单 、 
强大 的 图 形 识别 技术 一 一 决策 树 一 一 的 核心 。 


决 全 树 基 本 上 束 古 一 个 提前 计划 的 20 个 问题 游戏 。 下 面 的 图 显示 
了 一 个 小 例子 。 这 古 一 个 决定 是 否 融 件 的 决策 树 。 你 只 要 从 决策 树 顶 
部 开始 ， 按 照 问 题 的 答案 一 路 往 下 即 可 。 当 你 到 达 决 策 树 底部 的 一 个 
框 时 ， 你 也 束 得 到 了 最 终结 来 。 


人 
口 


lll 


Pi 


“我 该 带 伞 吗 ” 的 决策 树 。 


你 也 许 在 想 ， 这 和 疼 形 识别 及 分 类 有 什么 关系? 答案 是 ， 如 采 你 
有 足够 多 的 训练 数据 ， 系 统 可 能 会 学 习 一 个 能 进行 精确 分 类 的 决策 


树 。 


让 我 们 来 研究 一 个 例子 ， 这 个 例子 基于 一 个 人 们 知之 其 少 但 却 极 
其 重要 的 问题 一 一 网 络 垃圾 。 我 们 在 第 三 草 中 提 到 过 它 ， 一 些 肆 意 胺 
为 的 网 站 操作 人 员 试 图 通过 人 为 制造 链 癌 特定 页 面 的 超 链接 ， 操 纵 搜 
索引 擎 的 排名 算法 。 这 些 狭 诈 的 网 站 管理 员 使 用 的 一 个 相关 策略 ， 就 
征 创 建 拥有 特别 修饰 内 容 ， 但 对 人 一 点 用 处 都 没有 的 网 页 。 你 可 以 在 
下 页 的 图 中 看 到 一 小 段 取 自 一 个 真实 网 络 垃圾 页 面 的 内 容 。 注 意 ， 那 
张 图 中 的 文本 没有 任何 意义 ， 但 却 重复 列 出 了 和 在 线 学 习 有 关 的 流行 
搜索 术语 。 这 个 网 络 垃圾 网 页 是 为 了 提高 其 链 向 的 特定 在 线 学 习 网 站 
的 排名 。 
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节选 目 一 个 “网 络 垃圾 ”页 面 。 这 个 页 面 没 有 任何 对 人 类 有 用 的 信息 一 一 其 唯一 目的 束 古 操纵 网 


络 搜索 排名 。 


资料 来 源 ， 乐 陶 拉 斯 (Ntoulas) 等 人 ，2006 年 。 


目 然 ， 搜 索引 擎 要 花费 大 量力 气 去 笑 试 辨别 和 消除 网 络 坪 圾 。 这 
也 是 图 形 识别 的 完美 应 用 : 我 们 能 取得 大 量 训练 数据 (在 网 络 垃圾 的 


例子 中 就 是 网 页 ， 手 动 将 它们 标记 为 "垃圾 ?或 “ 非 垃圾 ”， 并 训练 某 种 
分 类 磊 。 这 正 是 微软 研究 院 的 一 些 科学 家 在 2006 年 做 的 事 。 他 们 人 发 
现 ， 对 这 个 特殊 问题 效果 最 好 的 分 类 万 是 人 们 喜爱 已 信 的 决策 树 。 下 
面 的 图 展示 了 他 们 得 出 的 决策 树 的 一 小 部 分 。 


尽管 完整 的 决策 树 依赖 于 许多 不 同 的 属性 ， 下 面 的 图 展示 的 部 分 
决策 树 专注 于 页 面 内 文字 的 流行 度 。 网 络 垃圾 制造 者 喜欢 在 页 面 中 加 
入 大 量 流行 词 ， 以 提升 他 们 网 页 的 排名 ， 因 此 流行 词 占 比较 小 ， 也 预 
示 该 网 页 是 垃圾 的 概率 较 低 。 这 解释 了 决策 树 的 第 一 个 决策 ， 其 余 决 
策 遵 循 类 似 的 逻辑 。 这 个 决策 树 的 精确 度 在 90% 左 右 一 一 离 完美 相差 很 
远 。 但 不 管 怎样 ， 这 十 一 个 对 抗 网 络 垃圾 制造 者 的 无 价 武 右 。 


排名 前 1 000 的 词 在 
页 面 中 所 占 的 百分比 


排名 前 500 的 词 在 页 
面 中 所 占 的 百分比 


出 现在 页 面 中 的 前 
500 个 词 的 百分比 


少 于 15% 


辨别 网 络 垃圾 的 决策 树 的 一 部 分 。 点 代表 部 分 决策 树 出 于 简 尘 的 目的 省 略 了 。 


资料 来 源 ， 乐 陶 拉 斯 (Ntoulas) 等 人 ，2006 年 。 


要 重点 理解 的 不 是 决策 树 本 身 的 细 市 ， 而 是 这 一 事实 整个 决策 
树 是 由 计算 机 程序 基于 约 1.7 万 个 网 页 上 的 训练 数据 自动 生成 的 。 这 
些 “ 训 练 ? 页 面 被 真人 分 为 "垃圾 ?或 * 非 垃圾 ”。 好 的 图 形 识别 系统 需要 投 
入 巨大 的 人 力 ， 但 这 是 一 次 性 投入 ， 并 能 产生 长 期 回报 。 


和 我 们 之 前 讨论 过 的 最 近邻 分 类 如 相反 ， 决 策 树 分 类 右 的 学 习 阶 
段 非 党 庞大 。 这 个 学 习 阶 段 如 何 进 行 ? 其 主要 思想 和 规划 好 一 个 20 个 
问题 游戏 一 样 。 计 算 机 测试 大 量 可 能 的 第 一 个 问题 ， 寻 找 一 个 能 得 出 
最 佳 的 可 能 信息 的 问题 。 然 后 ， 计 算 机 将 训练 样本 分 为 两 组 ， 取 决 于 
样本 对 第 一 个 问题 的 答案 ， 并 产生 第 二 个 对 这 两 个 组 都 最 佳 的 可 能 问 
题 。 计 算 机 一 直 用 这 种 方法 往 决 策 树 的 部 前 进 ， 永 远 基 于 达到 决策 树 
某 一 点 的 训练 示例 集合 来 决定 最 佳 器 题 。 如 末 示 例 集合 在 某 一 后 变 
得 “纯净 ”"”， 也 就 是 说 ， 集 合 中 只 包 合 垃圾 页 面 或 非 坪 圾 页 面 一 一 计算 
机 惑 能 停止 生成 新 问 题 ， 输 出 对 应 剩余 页 面 的 答案 。 


总 之 ,决策 树 分 类 楷 的 学 习 过 程 可 以 很 复杂 ， 但 它 是 全 目 动 的 ， 
而 且 你 只 需要 做 一 次 。 在 此 之 后 ， 你 就 得 到 了 上 自己 需要 的 决策 树 ， 而 
分 类 阶段 则 极其 简单 :就 像 20 个 问题 游戏 一 样 ， 你 按照 问题 的 答案 问 
决策 树 压 部 移动 ， 直 到 抵达 结 采 框 。 基 本 上 ， 只 需要 少数 问题 ， 因 此 
分 类 阶段 极度 高 效 。 同 最 近邻 方法 相 比 ， 最 近邻 方法 在 学 习 阶 段 无 须 


力 ， 但 分 类 阶段 要 求 我 们 将 需要 分 类 的 每 个 东西 和 所 有 训练 示例 进 
比 对 (手写 数字 任务 中 的 示例 数 是 10 万 个 ) 。 


Di 济 


在 下 一 部 分 ， 我 们 会 碰 到 神经 网 络 ， 它 也 是 一 种 图 形 识别 技术 ， 
其 学 习 阶 段 不 仅 重要 ， 而 且 直 接受 到 人 类 和 其 他 动物 从 环境 中 学 习 的 
方法 的 局 发 。 


神经 网 络 


从 第 一 台数 字 计 算 机 的 创造 开始 ， 人 脑 令 人 印象 深刻 的 能 力 就 吸 

引 并 局 发 了 计算 机 科学 家 。 最 早 使 用 计算 机 模拟 人 脑 的 讨论 之 一 ， 是 

由 英国 科学 家 阿兰 :图 灵 (Alan Turing) 发 起 的 ， 图 灵 还 是 一 名 顶级 的 

数学 家 、 工 程 师 和 译 电码 专家 。 图 灵 于 1950 年 发 表 的 经 典 论文 《计算 

机 器 与 智能 》 (Computing Machinery and Intelligence) ， 以 其 对 计算 机 
全 


一 个 标准 生物 神经 元 。 电 子 信号 按 图 中 箭头 所 示 方 向 流动 。 只 有 在 输入 信号 足够 大 的 情况 下 ， 


神经 元 才 会 传输 输出 信号 。 


这 篇 论文 介绍 了 一 种 评估 计算 机 和 人 之 间 相 似 性 的 科学 方法 ， 也 
就 是 如 今 众 所 周知 的 “图 灵 测 试 ”(Turing Test) 。 但 在 这 篇 论文 的 一 段 
不 怎么 知名 的 文字 里 ， 图 灵 直 接 分 析 了 使 用 计算 机 模拟 人 脑 的 可 能 
性 。 他 估计 只 需要 十 几 G 〈 于 兆 字 节 ) 的 内 存 就 足够 了 。 


60 年 后 ， 人 们 普遍 认为 图 灵 极 大 地 低估 了 模拟 人 脑 所 需 的 工作 
量 。 自 那 篇 论文 发 表 以 后 ， 计 算 机 科学 家 们 使 用 了 多 种 不 同 的 方法 寻 
求 达 成 这 一 目标 。 其 中 一 个 结果 就 是 人 工 神经 网 络 领域 (artificial 


neural networks) ， 人 简称 为 神经 网 络 。 


生物 神经 网 络 


为 帮助 我 们 理解 人 工 神经 网 络 ， 我 们 首先 要 对 真实 的 生物 神经 网 
络 如 何 运 行 有 大 致 了 解 。 动 物 大 脑 由 神经 元 细胞 构成 ， 每 个 神经 元 和 
其 他 许多 神经 元 相连 。 神 经 元 能 通过 这 些 连接 发 送 电子 和 化 学 信和 号。 
其 中 一 些 连 接 被 建立 用 于 接收 来 自 其 他 神经 元 的 信号 ; 余下 的 连接 则 
向 其 他 神经 元 传输 信号 ( 见 上 图 ) 。 


摘 述 这 些 信号 的 一 种 简单 方法 是 ， 在 任何 时 刻 ， 一 个 神经 元 要 
么 “闲置 ”(idle) ， 要 么 “开火 ” (firing) 。 当 它 闲置 时 ， 神 经 元 并 没有 
传输 任何 信号 ; 当 它 开火 时 ， 神 经 元 通过 其 所 有 外 向 连接 频繁 发 送信 
号 脉冲 。 神 经 元 如 何 决 定 何 时 开火 呢 ? 这 取决 于 其 接收 到 的 信号 的 强 
度 。 基 本 上 ， 如 果 所 有 传 入 信号 的 总 强度 足够 大 ， 神 经 元 就 会 开始 开 
火 ; 否则 ， 神 经 元 仍 会 闲置 。 粗 略 地 来 说 ， 神 经 元 会 将 其 接收 的 所 有 
输入 “ 相 加 ”， 在 总 和 足够 大 时 开火 。 这 一 摘 述 的 一 个 重要 修 所 之 处 
征 ， 神 经 元 实际 上 有 两 种 输入 ， 分 别 为 兴奋 性 输入 (excitatory) 和 抑 
制 性 输入 (inhibitory) 。 兴 奋 性 输入 的 强度 会 相 加 ， 而 抑制 性 输入 则 
会 从 总 数 中 减 去 ， 因 此 一 个 强烈 的 抑制 性 输入 倾 同 于 阻止 神经 元 开 
火 。 


一 个 解决 市 件 问 题 的 神经 网 络 


人 工 神经 网 络 就 古 一 个 代表 一 小 部 分 人 脑 的 计算 机 模型 ， 运 算 高 
度 简 化。 我 们 在 一 开始 会 讨论 一 个 人 工 神经 网 络 的 基础 版 本 ， 这 个 基 
础 版 本 在 处 理 之 前 思考 的 市 们 问题 上 效果 民 好 。 之 后 ， 我 们 将 运用 一 
个 拥有 成 熟 功 能 的 神经 网 络 来 处 理 “ 太 阳 镜 问题 ”。 


我 们 基础 模型 中 的 每 个 神经 元 部 有 一 个 号 码 ， 这 个 号 码 被 称 为 神 
经 元 的 阐 值 (threshold) 。 当 模型 运行 时 ， 每 个 神经 元 都 将 其 接收 的 输 
入 相 加 。 如 采 输 入 总 量 大 于 或 等 于 国 值 ， 神 经 元 吏 开 火 ， 否 则 束 仍 然 
闲置 。 下 图 惑 展示 了 一 个 神经 网 络 ， 处 理 我 们 之 前 思考 的 极其 俏 单 的 
涡 件 问题。 在 图 的 左边 ， 有 三 个 输入 进入 网 络 。 你 可 以 将 这 些 输入 想 
象 为 动物 脑 中 的 感觉 输入 。 和 我 们 的 眼睛 及 耳 示 触发 并 发 送 至 脑 部 神 
经 元 的 电子 及 化 学 信号 一 样 ， 图 中 三 个 输入 向 人 工 神 经 网 络 中 的 神经 
发 送信 和 号。 这 个 网 络 中 的 三 个 输入 部 是 兴 否 性 输入 。 如 末 相 对 应 的 
况 是 真 的 ， 那 么 每 个 输入 都 会 传输 强度 +1 的 信号 。 比 如 ， 如 采 现 在 
云 ， 那 么 被 标记 为 “多 云 ”的 输入 ， 会 发 送 一 个 强度 +1 的 兴奋 性 信 
反之 ， 它 不 会 发 送 任 何 东 西 ， 也 就 相当 于 一 个 强度 为 0 的 信号 。 
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如 琳 我 们 名 略 输入 和 输出 ， 这 个 网 络 只 有 两 个 神经 元 ， 每 个 神经 
元 的 国 值 都 不 同 。 湿 润 度 和 云 量 输入 的 神经 元 ， 只 有 在 两 个 输入 都 活 
跃 时 才 开 火 (假设 其 立 值 为 2)， 而 男 一 个 神经 元 只 要 输入 之 一 是 活跃 
的 就 能 开火 (假设 其 值 为 1)  。 这 样 做 的 效果 在 下 图 中 展示 了 出 来 ， 你 
能 在 其 中 看 到 最 终 输出 是 如 何 根 据 输入 改变 的 。 


threshold=2 


漳 沁 多云， 但 未 下 雨 。 


最 上 方 的 图 ;一 个 解决 带 伞 问 题 的 神经 网 络 。 下 面 两 张 图 ， 运 行 中 的 带 伞 神 经 网 络 。* 开 火 " 的 


神经 元 、 输 入 和 输出 都 加 粗 了 。 在 中 间 的 图 中 ， 输 入 状态 是 未 下 雨 ， 但 却 既 潮湿 又 多 云 ， 产 生 


了 带 伞 的 决策 。 在 最 下 面 的 图 中 ， 唯 一 的 活跃 输入 是 : “多云 ? "结果 是 不 带 伞 的 决策 。 


一 个 神经 网 络 “识别 ?的 人 脸 。 事 实 上 ， 与 识别 人 脸 不 同 的 是 ， 我 们 将 处 理 比 识别 人 脸 更 简 


ESY 


单 的 问题 ， 判 断 一 张 人 脸 上 是 否 戴 了 太阳 镜 。 来 源 : 汤姆 . 米 切 尔 (Tom Mitchell) ，《 机 器 学 


习 》 (Machine Learning) ， 麦 格 劳 - 希 尔 出 版 社 (1998 年 ) 。 感 谢 授权 使 用 该 图 像 。 


到 这 里 ， 你 也 许 该 回头 再 看 看 前 文中 用 于 解决 市 们 问题 的 决策 
树 。 结 果 显 示 ， 当 给 予 相同 的 输入 时 ， 决 策 树 和 神经 网 络 产生 了 相同 
的 结 末 。 对 于 这 个 非常 简单 的 人 为 问题 而 言 ， 决 案 树 作为 代表 很 可 能 
要 更 合适 。 但 我 们 接 下 来 将 探究 一 个 很 复杂 的 问题 ， 它 将 展示 神经 网 
络 的 真正 力量 。 


一 个 解决 太阳 镜 问 题 的 神经 网 络 


作为 一 个 能 通过 使 用 神经 网 络 成 功 解决 的 现实 问题 的 例子 ， 我 们 
将 处 理 被 称 为 “太阳 镜 问 题 * 的 任务 。 这 一 问题 的 输入 是 一 个 低 分 辩 率 
人 脸 照 请 的 数据 库 。 数 据 库 中 的 人 脸 角 度 不 一 : 有 些 人 直 视 镜头 ， 有 
些 人 的 头 仰 着 ， 有 些 人 看 回 左 边 或 右边 ， 还 有 一 些 人 戴 着 太阳 镜 。 上 
图 显示 了 其 中 一 些 例子 。 


在 这 里 ， 我 们 故意 使 用 低 分 辩 率 照 请， 以便 让 我 们 的 神经 网 络 容 
易 描述 。 事 实 上 ， 这 些 图 片 的 宽 和 高 都 只 有 30 像 素 。 不 过 ， 我 们 很 快 
束 会 知道 ， 神 经 网 络 在 如 此 粗粮 的 输入 下 也 能 得 出 出 人 意料 的 好 结 
果 。 


这 个 人 脸 数据 库 可 以 通过 神经 网 络 来 执行 标准 面部 识别 一 一 即 判 
定 照 所 中 人 的 身份 ， 不管 这 个 人 十 否 看 癌 镜 头 或 戴 太阳 镜 。 但 在 这 
里 ， 我 们 要 处 理 一 个 更 容易 的 问题 ， 以 更 清晰 地 展示 神经 网 络 的 属 
性 。 我 们 的 目标 是 判定 一 张 人 脸 是 否 戴 太 阳 镜 。 
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一 个 解决 太阳 镜 问 题 的 神经 网 络 。 


上 图 显示 了 这 个 网 络 的 基本 结构 。 这 是 一 张 概括 图 ， 并 没有 显示 
实际 网 络 中 使 用 的 每 个 神经 元 或 每 个 连接 。 这 张 图 最 明显 的 特 后 就 十 
右边 的 那个 输出 神经 元 ， 如 来 图 像 合 有 太阳 镜 ， 这 个 输出 神经 元 就 产 
生 一 个 1， 反 之 则 为 0。 在 网 络 中 央 ， 有 三 个 直接 从 输入 图 像 接收 信和 号 
并 向 输出 神经 元 发 送信 号 的 神经 元 。 这 个 网 络 最 复杂 的 部 分 在 图 左 
边 ， 我 们 可 以 看 到 从 输入 图 像 到 中 央 神 经 元 的 连接 。 尺 管 并 没有 显示 
所 有 连接 ， 实 际 网 络 中 输入 图 像 的 每 个 像素 和 每 个 神经 元 都 有 连接 。 


快速 计算 后 ， 你 会 发 现 连接 数 相当 庞大 。 记 得 我 们 使 用 的 图 像 宽 高 都 
为 30 像 素 吧 。 因 此 ， 即 便 以 现代 标准 来 看 这 些 图 像 很 小 ， 但 每 张 图片 
也 都 包含 30 x 30 = 900 个 像 隶 。 而 图 中 有 三 个 中 央 神 经 元 ， 也 怠 是 说 ， 
这 个 网 络 的 左边 总 共有 3 x 900 = 2 700 个 连接 。 


这 个 网 络 的 结构 是 如 何 决定 的 呢 ? 这 些 神经 元 能 按照 不 同 的 方式 
相连 吗 ? 是 的 ， 有 许多 种 不 同 的 网 络 结构 能 得 出 太阳 镜 问 题 的 好 结 
果 。 一 个 网 络 结构 的 选择 ， 通 第 是 基于 之 前 运行 民 好 的 经 验 。 和 以 前 
一 样 ， 我 们 再 一 次 看 到 ， 和 图 形 识别 系统 打交道 需要 洞 见 和 直觉 。 


不 痒 的 是 ， 我 们 很 快 隐 会 看 到 ， 在 网 络 正确 运行 之 前 ， 我 们 选择 
的 网 络 中 的 所 有 2 700 个 连接 ， 都 要 按 某 种 方式 “调整 ”。 我 们 如 何 才 有 
可 能 处 理 这 种 调整 数 以 千 计 不 同 连接 的 复杂 度 ? 答案 是 调整 会 通过 学 
习 训 练 示例 目 动 完成 。 


增加 加 权 信 号 


正如 我 之 前 提 到 的 ， 我 们 用 于 解决 市 件 问 题 的 网 络 是 一 个 基础 版 
人 工 神 经 网 络 。 对 于 太阳 镜 问 题 ， 我 们 将 添加 三 个 重要 的 增强 措施 。 


增强 措施 1: 信号 只 能 携带 0 和 1 之 间 的 任意 值 。 这 和 带 伞 网 
络 相 反 ， 和 珊 伞 网 络 中 的 输入 和 输出 信号 被 限制 在 0O 和 和 1， 不 能 携带 任何 
中 间 值 。 换 言 之 ， 新 网 络 中 的 信号 值 可 以 是 0.0023 或 0.755。 为 沙 实 到 


具体 ， 想 想 太 阳 镜 例子 。 输 入 图 像 中 一 个 像素 的 亮度 对 应 通过 那个 像 
素 连接 输出 的 信号 值 。 因 此 ， 一 个 全 日 的 像素 会 发 送 值 1， 而 一 个 全 时 
的 像素 会 发 送 值 0。 不 同 灰 度 会 对 应 地 产生 0~1 的 值 。 


增强 措施 2: 输入 总 和 通过 加 权 求 和 计算 。 在 带 伞 网 络 中 ， 
神经 元 在 没有 用 任何 方法 替换 输入 的 情况 下 将 输入 相 加 。 不 过 ， 在 实 
际 中 ， 神 经 网 络 考虑 了 每 个 连接 的 强度 不 同 。 连 接 的 强度 由 一 个 数字 
代表 ， 这 个 数字 被 称 为 该 连接 的 权重 。 大 的 正 权 重 (如 51.2) 代表 了 强 
烈 的 兴 理 性 连接 一 一 当 信 和 号 穿 过 这 样 的 连接 时 ， 其 下 游 神 经 元 极 有 可 
能 会 开火 。 大 的 负 权 重 (如 -121.8) 代表 了 强烈 的 抑制 性 连接 
罕 过 这 样 的 连接 时 ， 其 下 游 神经 元 极 有 可 能 依然 内 置 。 权 重 较 小 (如 
0.03 或 -0.0074) 的 连接 对 其 下 游 神经 元 是 否 开 火影 响 很 小 。 (在 现实 
中 ， 权 重 被 定义 为 “大 ”或 “小 ”只 是 相对 其 他 权重 而 言 ， 因 此 ， 只 有 我 们 
假设 这 些 数字 示例 在 同一 神经 元 的 连接 上 ， 这 里 给 出 的 数字 示例 才 有 
意义 。) 当 一 个 神经 元 计算 其 输入 的 总 和 时 ， 每 个 输入 信号 在 加 进 总 
和 之 前 ， 都 会 和 其 连接 的 权重 相 乘 。 因 此 ， 大 权重 的 影响 力 要 比 小 权 
重 的 大 ， 也 让 兴奋 性 和 抑制 性 信号 有 可 能 相互 抵消 。 


信号 


增强 措施 3: 国 值 的 作用 被 软化 。 阔 值 不 再 将 神经 元 的 输出 限 
定 在 全 开 〈 比 如 1) 或 全 关 〈 比 如 0) 上 ; 输出 可 以 是 0 和 1 之 间 (包含 0 
和 1) 的 任意 值 。 当 输入 总 和 远 低 于 阔 值 时 ， 输 出 会 接近 于 0， 当 输入 
总 和 远 高 于 国 值 时 ， 输 出 接近 于 1。 但 当 输 入 总 和 接近 阔 值 时 ， 会 产生 


一 个 接近 0.5 的 中 间 输 出 。 比 如 ， 假 设 一 个 神经 元 的 靖 值 是 6.2， 强 度 为 
122 的 输入 可 能 会 得 到 0.995 的 输出 ， 这 是 因为 输入 远大 于 靖 值 。 但 强度 
为 6.1 的 输入 接近 国 值 ， 则 其 可 能 会 产生 一 个 0.45 的 输出 。 这 种 效果 在 
所 有 神经 元 上 部 有 ， 包 括 最 终 输 出 神经 元 。 在 我 们 的 太阳 镜 应 用 中 ， 
这 意味 着 ， 输 出 值 接近 1 强烈 暗示 了 存在 太阳 镜 ; 而 输出 值 接近 0， 则 
强烈 暗示 了 不 存在 太阳 镜 。 


信号 在 相 加 前 会 乘 以 一 个 连接 权重 。 


上 图 展示 了 带 有 全 部 三 种 增强 措施 的 新 型 人 工 神经 元 。 这 个 神经 
元 接收 来 自 三 个 像素 的 输入 : 一 个 明亮 像素 (信号 强度 0.9) 、 一 个 中 
等 明亮 的 像素 (信号 强度 0.6) 和 一 个 颜色 较 深 的 像素 (信号 强度 
0.4) 。 这 三 个 像素 跟 神 经 元 连接 的 权重 分 别 是 10、0.5 和 -3。 这 些 信和 号 
先 和 权重 相 乘 再 相 加 ， 得 到 这 个 神经 元 的 输入 信和 号 总 强度 为 8.1。 因 为 
8.1 要 远大 于 神经 元 的 阔 值 2.5， 因 此 输出 非常 接近 于 1。 


通过 学 习 调 整 一 个 神经 网 络 


现在 我 们 已 经 准备 好 去 说 明 ， 调 整 一 个 人 工 神 经 网 络 完 竟 意味 着 
什么 。 首 先 ， 每 个 连接 ( 记 住 ， 可 能 会 有 成 千 上 万 个 连接 ) 都 必须 有 
权重 值 ， 这 个 值 可 以 为 正 (兴奋 性 ) ， 也 可 以 为 负 (抑制 性 ) 。 其 
次 ， 每 个 神经 元 部 必须 有 个 合适 的 值 作为 阐 值 。 你 可 以 将 权重 和 病 值 
想象 成 网 络 中 的 小 刻度 副 ， 每 个 刻度 副 都 能 像 电 灯 开 关中 的 调 光 龙 一 
样 调 上 调 下 。 


手动 调节 这 些 刻度 盘 需 要 耗费 的 时 间 会 令 人 望而却步 。 相 反 ， 我 
们 可 以 使 用 计算 机 在 学 习 阶 段 设置 这 些 刻度 盘 。 最 开始 ， 这 些 刻 度 副 
的 值 都 是 随机 值 。 (这 看 起 来 也 许 非常 随意 ， 但 专业 人 士 在 实际 应 用 
中 也 是 这 么 做 的 。) 之 后 ， 计 算 机 会 获得 第 一 个 训练 样本 。 在 这 个 例 
子 中 ， 第 一 个 训练 样本 是 一 个 可 能 戴 也 可 能 没 戴 太阳 镜 的 人 的 照 斤 。 
这 个 样本 会 通过 这 个 网 络 处 理 ， 产 生 一 个 在 0 和 1 之 间 的 输出 值 。 然 
而 ， 因 为 这 个 样本 古训 练 样 本 ， 我 们 知道 网 络 理应 得 出 的 “目标 ” 值 。 
关键 点 在 于 稍微 调整 一 下 网 络 ， 让 其 输出 更 接近 于 想 要 的 目标 值 。 比 
如 ， 假 设 第 一 个 训练 样本 恰巧 有 太阳 镜 。 那 么 目标 值 束 古 1°。 因此 ， 整 
个 网 络 中 的 所 有 刻度 盘 都 要 稍微 调 广 一 下 ， 以 便 让 网 络 输出 值 朝 目标 
值 1 的 方面 转移 。 如 果 第 一 个 训练 样本 不 包 仿 太阳镜， 每 个 刻度 盘 都 要 
绷 相 反 的 方 同 移 去 一 点 点 ， 以 便 让 输出 值 同 目标 值 0 移 动 。 你 应 该 已 经 
知道 这 个 过 程 古 如 何 进 行 的 了 吧 。 网络 一 个 接 一 个 地 获得 训练 样本 ， 


每 个 刻度 强 都 要 被 调整 以 提升 网 络 效能 。 在 多 次 运行 完 所 有 训练 样本 
后 ， 网 络 的 效能 基本 上 会 达到 很 高 水 平 ， 而 学 习 阶 段 也 以 将 当时 的 刻 
度 盘 配置 而 结 


实际 上 ， 如 何 计算 刻度 盘 的 这 些 细微 调整 的 细节 相当 重要 ， 但 这 
需要 一 些 超出 本 书 范 围 的 数学 。 我 们 需要 的 工具 是 多 变量 微 积分 
(multivariable calculus) ， 这 一 般 是 在 大 学 中 等 数学 课程 中 教授 。 是 
的 ， 数 学 的 确 重 要 ! 还 有 ， 注 意 我 在 这 里 描述 的 方法 ， 专 家 称 之 为 “ 随 
机 梯度 下 降 ” (stochastic gradient descent) ， 而 这 只 是 用 于 训练 神经 网 
络 的 多 种 公认 方法 之 一 。 


yy 


所 有 这 些 方法 都 有 相同 的 特点 ， 让 我 们 专注 于 大 局 吧 : 神经 网 络 
的 学 习 阶 段 相当 耗费 精力 ， 涉 及 对 所 有 权重 和 国 值 的 反复 调整 ， 直 到 
网 络 在 训练 样本 上 运作 民 好 。 不 过 ， 所 有 这 些 痢 能 被 计算 机 目 动 完 
成 ， 而 结 采 就 是 一 个 能 简单 高 效 地 对 新 样本 分 类 的 网 络 。 


让 我 们 来 看 看 神经 网 络 如 何 解决 太阳 镑 问题 。 一 旦 学 习 阶 段 完 
成 ， 从 输入 图 像 到 中 央 神 经 元 的 成 二 上 万 个 连 授 ， 痢 会 被 赋予 一 个 数 
字 权 重 。 如 采 我 们 能 将 所 有 像素 的 连接 集中 到 一 个 神经 元 上 (比如 最 
上 方 的 ) ， 我 们 就 能 通过 将 它们 转化 为 一 张 图 片 ， 从 而 非常 方便 直观 
地 看 到 这 些 权 重 。 权 重 的 视 党 化 在 下 图 中 显示 ， 图 中 所 有 像素 都 只 连 
接 到 一 个 中 央 神 经 元 上 。 在 这 张 视觉 化 图 中 ， 强 烈 的 兴奋 性 连接 ( 比 
如 大 的 正 权重 连接 ) 显示 为 白色 ， 而 强烈 的 抑制 性 连接 (比如 大 的 负 


权重 连接 ) 显示 为 黑色 。 不 同 灰 度 的 颜色 代表 中 间 强 度 的 连接 。 

权重 都 显示 在 与 其 相对 应 的 像素 点 上 。 仔 细 看 一 下 图 。 在 太阳 镜 通 常 
会 出 现 的 区 域 有 一 个 非常 明显 的 由 强烈 抑制 性 权重 组 成 的 地 带 一 一 事 
实 上 ， 你 几乎 可 以 肯定 这 张 权 重 图 真 的 包含 某 副 太阳 镜 的 图 像 。 我 们 
可 以 称 之 为 太阳 镜 的 “幻影 ”， 因 为 它们 并 不 代表 任何 现实 中 存在 的 特 
定 太 阳 镜 。 


太阳 镜 网 络 中 连 向 一 个 中 央 神 经 元 的 输入 权重 比如 强度 ) 。 


考虑 到 设置 权重 并 未 使 用 任何 人 类 知识 告知 太阳 镜 的 一 般 颜 色 和 
位 置 ， 这 个 幻影 的 出 现 给 人 的 印象 相当 深刻 ， 人 类 提供 的 信息 只 有 一 


系列 训练 图 像 ， 每 个 图 像 都 有 个 简单 的 “十” 或 “ 否 ” 表 明 其 中 是 否 有 太阳 
镜 。 太 阳 镜 的 幻影 从 学 习 阶 段 反 复 调 整 的 权重 中 目 动 浮现 出 来 。 


男 外 ， 图 片 的 其 他 部 分 也 有 许多 明显 的 强权 重 ， 从 理论 上 讲 ， 这 
些 权 重 不 应 该 对 太阳 镜 决 策 有 影响 。 我 们 怎么 才能 解释 这 些 没有 意 
义 “ 明 显 是 随机 的 连接 呢 ? 在 这 里 ， 我 们 遇 到 了 人 工 智能 研究 人 员 在 
过 去 几 十 年 中 学 到 的 最 重要 的 教训 之 一 : 看 似 智能 的 行为 有 可 能 从 看 
似 随 机 的 系统 中 译 现 出 来 。 如 采 我 们 有 能 力 进 入 人 脑 ， 人 研究 神经 元 之 
间 连 接 的 强度 ， 其 中 绝 大 部 分 连接 都 会 表现 得 很 随机 。 然 而 ， 当 作为 
集合 体 行 动 时 ， 这 些 连 接 强 度 的 松散 集合 产生 了 人 的 智能 行为 ! 


分 类 正确 


分 类 不 正确 


太阳 镜 网 络 的 结 


资料 来 源 : 汤姆 . 米 切 尔 (Tom Mitchell) ，《 机 器 学 习 》 (Machine Learning) ， 麦 格 劳 - 希 尔 


出 版 社 (1998 年 ) 。 感 谢 授权 使 用 该 图 像 。 


运用 太阳 镜 网 络 


既然 我 们 现在 使 用 着 一 个 能 输出 0 到 1 之 间 任 意 值 的 网 络 ， 你 也 许 
在 想 我 们 该 怎么 才能 得 到 最 终 管 案 一 一 图 片 中 的 人 有 没有 戴 太 阳 镜 ? 
正确 的 拉 巧 极其 价 单 :超过 0.5 的 输出 被 视 为 “有 太阳 镜 "， 低 于 0.5 的 输 
出 结 采 被 视 为 "没有 太阳 镜 ”。 


要 测试 我 们 的 太阳 镜 网 络 ， 我 进行 了 一 次 实验 。 面 部 数据 库 包含 
约 600 张 图 片 ， 我 将 400 张 图 片 用 于 网 络 学 习 ， 然 后 用 剩余 的 200 张 图 片 
测试 了 网 络 的 效果 。 在 这 个 实验 中 ， 太 阳 镜 网 络 的 最 终 精确 度 在 85% 左 
右 。 换 言 之 ， 在 太阳 镜 网 络 从 未 见 过 的 图 片 中 ， 当 询问 约 85% 的 岁 
片 “ 里 面 的 人 戴 太 阳 镜 了 吗 ” 这 个 问题 时 ， 太 阳 镜 网 络 都 能 给 出 正确 答 
案 。 上 图 显示 了 一 些 分 类 正确 及 分 类 不 正确 的 图 片 。 检 验 一 个 图 形 识 
别 算法 在 哪些 情况 下 会 失效 总 是 很 吸引 人 ， 这 个 神经 网 络 也 不 例外 。 
上 疼 右 侧 没 有 被 正确 分 类 的 图 片 中 有 一 两 张 非常 难 识别 ， 甚 至 连 人 都 
可 能 分 辨 不 出 。 不 过 ， 至 少 有 一 张 图 片 〈 右 侧 图 中 的 左上 方 图 ) 对 人 
来 说 非常 好 辨认 一 一 这 个 男人 直 视 镜头 ， 很 明显 也 戴 了 太阳 镜 。 这 类 
时 不 时 出 现 的 神秘 失败 案例 在 图 形 识别 任务 中 很 常见 。 


当然 ， 顶 尖 神 经 网 络 在 这 个 问题 上 的 精确 度 能 远 高 于 85%。 这 里 的 
重点 是 使 用 一 个 简单 网 络 ， 理 解 涉 及 的 主要 思想 。 


图 形 识别 : 过 去 、 现 在 和 未 来 


我 之 前 提 到 过 ， 图 形 识别 是 更 大 的 领域 人 工 智能 (AI) 的 一 个 方 
面 。 图 形 识别 处 理 高 度 变化 的 输入 数据 ， 如 首 频 、 照 片 和 视频 ，AI 处 
理 的 任务 更 多 元 ， 包 括 计算 机 国际 象棋 、 在 线 聊 天 机 器 人 和 人 形 机 咽 
起 才 


人 工 智能 是 突然 从 无 到 有 兴盛 起 来 的 ， 在 1956 年 于 达 特 茅 斯 大 学 
举行 的 一 次 会 议 上 ， 一 个 由 10 名 科学 家 组 成 的 小 组 从 根本 上 创立 了 这 
一 领域 ， 让 “人 工 智 能 ”这 个 短语 第 一 次 流行 开 来 。 在 这 次 大 会 创建 提 
案 一 一 大 会 组 织 者 将 其 发 给 了 洛 死 菲 勒 基金 会 一 的 桶 迈 文 字 中 ， 他 
们 的 讨论 “将 在 一 个 推测 的 基础 上 进行 ， 这 个 推测 是 学 习 的 每 个 方面 或 
智能 的 任何 其 他 特性 都 能 从 根本 上 加 以 精确 描述 ， 进 而 创造 一 台 能 模 
拟 它 的 机 器 


达 特 茅 斯 大 会 给 出 了 很 多 承诺 ， 但 况 现 甚 少 。 而 每 当 人 研究 人 员 确 
信 迈 癌 真 正 “ 乔 能 ”机 融 的 天 键 突破 束 在 眼前 时 ， 他 们 的 宏大 希望 尽 是 
会 被 原型 机 产生 的 机 械 行为 所 打 碎 。 即 便 神 经 网 络 的 发 展 对 此 帮助 也 
很 小 : 在 数 波 有 前 景 的 活动 之 后 ， 科 学 家 们 也 用 尽 了 对 付 这 堵 机 械 行 
为 之 墙 的 方法 。 


不 过 ， 人 工 智 能 肯定 在 慢 慢 地 破解 那些 思想 进程 集合 ， 这 些 思 想 
进程 可 能 被 定义 为 只 有 人 类 独 有 。 数 年 来 ， 许 多 人 相信 人 类 国际 象棋 
冠军 的 直觉 和 洞 见 能 打败 任何 计算 机 程序 。 计 算 机 程序 必须 依赖 于 预 
设 好 的 规则 集 ， 而 非 直觉 。 这 种 看 法 对 人 工 智 能 而 言 本 喘 已 援手 和 欲 
险 ， 并 在 1997 年 被 彻底 去 除 ，IBM 的 深 监 计算 机 在 这 一 年 打败 了 世界 
冠军 盖 瑞 . 卡 斯 由 罗 夫 (Garry Kasparov) 。 


同时 ， 人 工 智能 的 成 功 故 事 也 慢 慢 渗 透 到 普通 人 的 生活 中 去 。 通 
过 语音 识别 来 服务 消费 者 的 目 动 电话 系统 已 经 很 毅 见 。 视 频 游 戏 中 计 


算 机 控制 的 对 手 开始 表现 出 类 似 于 人 的 战略 ， 甚 至 还 有 个 性 特点 和 弱 
点 。 亚 马 过 和 Netflix 等 在 线 服 务 开始 基于 目 动 推导 的 个 人 喜好 推荐 商 
品 ， 而 结果 经 常 令 人 极其 满意 。 


的 确 ， 我 们 对 这 些 任务 的 认 知已 经 从 根本 上 被 人 工 智能 的 发 展 改 
变 了 。 想 想 这 个 问题 ， 在 1990 年 肯定 需要 人 类 的 智能 输入 来 规划 一 次 
多 地 停留 的 飞机 旅行 路 线 ， 而 且 人 类 还 会 因为 自己 的 专业 技能 获得 报 
酬 。1990 年 ， 好 的 人 类 旅行 中 介 在 寻找 方便 、 低 成 本 的 路 线 上 会 产生 
巨大 不 同 。 不 过 ， 到 2010 年 ， 计 算 机 在 执行 这 项 任务 上 就 比 人 类 好 上 
很 多 了 “。 计 算 机 客 竟 如 何 达 到 这 一 点 本 号 束 是 个 有 趣 的 故事 ， 因 为 它 
们 在 规划 路 线 时 的 确 用 到 了 数 个 迷人 算法 。 但 更 重要 的 是 这 些 系统 对 
我 们 在 这 项 任务 的 认 知 上 的 影响 。 我 会 说 ， 到 2010 年 ， 大 多 数 人 部会 
认为 规划 路 线 的 任务 是 纯粹 机 械 化 的 行为 一 一 和 20 年 前 的 认 知 形成 鲜 
明 对 比 。 


任务 的 逐渐 园 变 一 一 从 明显 是 直觉 性 的 任务 到 显然 是 机 械 化 的 任 
还 在 继续 。 普 裔 意义 上 以 及 图 形 识别 中 特殊 意义 上 的 人 工 智能 
正 慢 慢 扩 展 它 们 的 边界 ， 提 升 它们 的 效能 。 本 章 描述 的 算法 一 一 最 近 
邻 分 类 瑚 、 决 策 树 和 神经 网 络 一 一 能 被 运用 于 无 数 实际 问题 中 。 这 包 
括 纠 正 手机 虚拟 键盘 上 胖 手指 (fat-fingered) 文本 输入 ， 从 一 份 复杂 的 
检验 结 末 中 帮助 诊断 病人 人 疾病， 在 目 动 收费 吾 识别 汽车 牌照 ， 以 及 决 
定 同 某 个 计算 机 用 户 展示 什么 三 告 一 一 这 里 只 列举 几 个 。 因 此 ， 这 些 


务 


算法 是 岁 形 识别 系统 的 一 些 基础 构件 。 不 管 你 是 否认 为 它们 是 真正 
的 “智能 "， 你 都 将 在 霖 来 数 年 中 看 到 更 多 这 些 算法 。 


一 一 有 益 无 害 


爱 玛 很 快活 。 如 果 不 是 从 卧室 里 传 来 埃 尔 顿 太太 的 声音 ， 从 而 妨碍 了 她 ， 使 她 急匆匆 地 真诚 


地 紧 紧 握 住 她 的 手 以 表达 最 诚 击 的 祝愿 和 深厚 的 感情 ， 她 真 想 立交 


[2] 译 文选 自 张 宇 译本 。 一 一 译 者 注 


| 就 表示 有 话 要 讲 。 


简 . 奥 斯 洒 ，《 爱 玛 》[] 


我 们 对 压缩 实物 的 概念 都 很 熟悉 ， 当 你 试图 将 许多 衣服 放 入 一 个 
小 提 箱 中 时 ， 你 可 以 压 一 压 衣服 ， 让 它们 小 到 能 被 小 提 箱 容纳 ， 即 便 
衣服 的 正 第 体积 会 超出 小 提 箱 。 你 压缩 了 衣服 。 之 后 ， 再 从 小 提 箱 中 
拿 出 衣服 时 ， 你 惑 能 解压 它们 ， 并 以 它们 的 原始 大 小 和 形状 再 度 穿 着 
(希望 能 如 此 ) 。 


令 人 慰 讶 的 是 ， 我 们 也 有 可 能 对 信息 做 同样 的 事 : 计算 机 文件 和 
其 他 种 类 的 数据 ， 通 党 能 被 压缩 成 更 小 的 体积 ， 以 方便 存储 或 传输 。 
然后 ， 它 们 会 被 解压 并 以 原始 形式 外 使 用 。 


绝 大 多 数 人 的 计算 机 上 有 足够 的 们 c 副 空间 ， 无 须 为 压缩 目 己 的 文 
件 烦心 。 因 此 ， 和 人 们 倾 品 于 认为 ， 压 缩 对 绝 大 多 数 人 没有 影响。 但 这 
种 印象 是 错误 的 :事实 上 ， 计 算 机 系统 背后 经 常用 到 压缩 。 比 如 ， 许 
多 通过 互联 网 发 送 的 消息 都 经 过 了 上 压缩， 用户 甚至 不 知道 这 一 点 ; 儿 
乎 所 有 软件 都 是 以 压缩 格式 被 下 载 一 一 这 意味 着 你 下 载 和 转移 文件 的 
速度 ， 要 比 不 压缩 时 快 数 倍 。 甚 至 当 你 对 着 电话 讲话 时 ， 你 的 声音 
经 过 了 压缩 : 如 果 电 话 公司 能 在 传输 语音 数据 前 进行 压缩 ， 它 们 就 能 
对 目 己 的 资源 实现 超 高 利用 率 。 


压缩 也 以 更 明显 的 方式 得 到 了 和 运用。 流行 的 ZIP 文 件 格式 运用 的 精 
巧 压缩 算法 ， 将 在 本 章 得 到 介绍 。 你 很 有 可 能 也 对 涉及 压缩 数字 视频 


的 得 失 很 熟悉 ， 融 质 量 视频 的 文件 体积 ， 要 比 相同 视频 的 低 质 量 版 本 


无 损 压缩 : 终极 免费 午餐 


计算 机 使 用 两 种 截然 不 同 的 压缩 : 无 损 压 赠 和 有 损 庄 缩 ， 这 点 很 
重要 。 无 损 压 缩 是 真正 的 免费 午餐 ， 对 你 有 益 无 害 。 一 种 无 损 压 缩 算 
法 能 将 一 个 数据 文件 压缩 为 其 原始 体积 的 一 小 部 分 ， 然 后 将 其 解压 为 
和 之 前 一 样 的 东西 。 相 反 ， 有 损 压缩 会 导致 解压 后 的 原始 文件 发 生 一 
些小 改变 。 我 们 稍 后 再 讨论 有 损 压 缩 ， 现 在 让 我 们 专注 于 无 损 压 缩 
吧 。 举 个 无 损 压 缩 的 例子 ， 假 设 原始 文件 包含 本 书 文本 。 那 么 你 在 讨 
缩 前 和 压缩 后 得 到 的 文件 版 本 包含 完全 相同 的 文本 2 
字 、 空 格 或 标点 符号 不 同 。 在 我 们 为 免费 午餐 感到 欣喜 大 狂 之 前 ， 我 
要 加 一 个 重要 警告 无损 压缩 算法 并 不 能 为 所 有 文件 都 入 省 大 量 空 
间 。 但 一 个 好 的 压缩 算法 能 为 特定 大 类 的 文件 节省 大 量 空间 。 


那 我 们 怎么 才能 享受 免费 午餐 昵 ? 你 怎么 才能 在 不 破坏 的 情况 
下 ， 让 一 块 数 据 或 信息 比 起 实际 “真实 ”体积 更 小 ， 并 在 之 后 完美 地 重 
构 一 切 东 西 呢 ?事实 上 ， 人 类 一 直 痢 在 这 么 做 ， 只 不 过 从 未 想 到 过 罢 
了 。 想 一 下 你 的 每 周 日 程 。 为 集 单 起 见 ， 让 我 们 假设 你 每 天 工作 8 小 
时 ， 每 周 工 作 5 天 ， 你 用 一 小 时 的 区 间 来 划分 日 程 。 因 此 ，5 个 工作 日 
的 每 天 都 有 8 个 可 能 的 区 间 ， 每 周一 共有 40 个 区 间 。 然 后 ， 将 你 一 周 的 


日 程 传输 给 其 他 人 ， 你 必须 传输 40 份 信息 。 但 如 果 有 人 打 电 话 让 你 安 
排 下 周 的 一 个 会 议 ， 你 会 通过 列 出 40 份 分 开 的 信息 来 描述 自己 什么 时 
候 有 至 蚂 ? 当然 不 会 ! 最 有 可 能 的 情况 是 ， 你 会 说 些 “ 周 一 和 周二 全 
满 ， 周 四 和 周 五 下 午 1 点 到 3 点 有 预约 ， 其 余 时 间 有 空 ”之 类 的 话 。 这 就 
是 一 个 无 损 数 据 压缩 的 例子 ! 和 你 谈话 的 人 能 完全 重 构 出 你 下 周 所 有 
40 个 时 段 的 空 用 情况 ， 但 你 却 无 须 详细 列 出 它们 。 


你 也 许 会 想 这 种 “压缩 ?是 取 巧 ， 因 为 它 取决 于 这 一 事实 : 你 的 日 
程 安排 中 的 绝 大 多 数 区 块 都 相同 。 符 别 是 ， 周 一 和 周二 全 天 都 有 预 
约 ， 因 此 你 能 非常 快速 地 摘 述 它们 ， 这 周 剩 下 的 时 间 里 ， 除 了 两 个 时 
间 段 以 外 都 有 至 ， 这 也 很 容易 朱 述 。 这 的 确 旦 个 非常 简单 的 例子 。 不 
管 有 怎 样 ， 计 算 机 中 的 数据 压缩 也 是 按照 这 一 方法 运行 的 ， 基 本 思想 是 
发 现 数据 中 彼此 相同 的 部 分 ， 并 运用 某 种 把 戏 更 高 效 地 描述 这 些 部 


分 。 


这 在 数据 包含 重复 片段 时 尤其 简单 。 比 如 ， 你 很 有 可 能 想 出 一 个 
压缩 下 列 效 据 的 好 方法 : 


AAAAAAAAAAAAAAAAAAAAABCBCBCBCBCBCBCBCBCBCAAA 


AAADEFDEFDEF 


如 果 乍 一 看 还 不 明显 ， 思 考 一 下 你 会 如 何 通 过 电话 向 某 人 口述 这 
份 数据 。 和 说 “A、A、A、A....... 、D、EE、F” 不 同 的 是 ， 我 肯定 你 更 


有 可 能 会 说 “21 个 A， 然 后 是 10 个 BC， 接 着 是 6 个 A， 最 后 是 3 个 DEF”。 
再 比如 ， 要 很 快 地 在 一 张 纸 上 记 下 这 份 数 据 ， 你 可 能 会 写 “21A、 
10BC、6A、3DEF”。 在 这 个 例子 里 ， 你 将 这 个 包含 56 个 字母 的 原始 数 
据 压缩 成 了 只 有 16 个 字母 的 字符 串 。 这 不 到 原 体 积 的 三 分 之 一 一 一 不 
错 ! 计算 机 科学 家 将 这 种 特别 的 把 戏称 为 行程 长 度 编码 (run-length 
encoding) ， 因 为 它 将 重复 的 “行程 ?和 行程 的 “长 度 ” 编 码 在 了 一 起 。 


不 幸 的 是 ， 行 程 长 度 编 码 只 在 压缩 非常 特殊 的 数据 种 类 上 有 用 。 
它 在 实际 中 也 有 运用 ， 但 大 部 分 时 候 只 和 其 他 压缩 算法 结合 起 来 使 
用 。 比 如 ， 传 真 机 就 将 行程 长 度 编码 和 另 一 种 被 称 为 霍 夫 受 编码 
(Huffman coding) 的 技术 结合 起 来 使 用 ， 我 们 稍 后 将 谈 到 霍 夫 曼 编 
码 。 行 程 长 度 编码 的 主要 问题 是 ， 数 据 中 的 重复 片段 必须 相 邻 一 一 换 
句 话说， 重复 部 分 间 不 能 有 其 他 数据 。 使 用 行程 长 度 编码 压缩 
ABABAB 很 容易 (只 是 3AB) ， 但 用 相同 的 把 戏 压 缩 ABXABYAB 就 行 
不 通 了 。 


你 也 许 明 日 为 什么 传真 机 能 利用 行程 长 度 编码 。 从 定义 上 来 说 ， 
传真 是 墨 日 文件 ， 文 件 会 被 转换 成 许多 个 点 ， 每 个 点 都 是 非 黑 即日 。 
当 你 按 顺 序 阅 读 这 些 点 (从 左 到 右 ， 从 上 到 下 ) ， 你 会 遇 到 大 段 白 点 
(背景 ) 以 及 小 段 黑 点 (前 景 文本 或 笔迹 ) 。 这 让 使 用 行程 长 度 编码 
变 得 非常 有 效 。 但 正如 之 前 所 提 到 的 ， 只 有 特定 类 型 的 数据 具有 这 一 


全 


于 是 ， 计 算 机 科学 家 们 发 明了 一 系列 更 成 熟 的 把 戏 ， 这 些 把 戏 使 
用 的 基本 思想 都 相同 《寻找 重 复 并 高 效 地 描述 它们 ) ， 但 即便 重复 部 
分 不 相 邻 也 效果 良好 。 在 这 里 ， 我 们 只 会 研究 其 中 的 两 种 把 戏 : 同 前 
把 戏 (same-as-earlier trick) 和 更 短 符 号 把 戏 (shorter-symbol trick) 。 
你 只 需要 这 两 个 把 戏 就 能 生成 ZIP 文 件 ， 而 ZIP 文 件 格式 是 个 人 电脑 上 
压缩 文件 最 流行 的 格式 。 因 此 ， 一 旦 你 理解 了 这 两 个 把 戏 背 后 的 基本 
思想 ， 你 也 就 理解 了 计算 机 在 大 部 分 时 间 里 是 如 何 运 用 压缩 的 。 


同 前 把 戏 


想象 这 就 是 你 要 处 理 的 可 怕 任 务 ， 通 过 电话 向 某 人 口述 如 下 数 
据 : 


VJGDNQMYLH-KW-VJGDNQMYLH-ADXSGF-OVJGDNQMYLH- 
ADXSGF-VJGDNQMYLH-EW-ADXSGF 


这 里 有 63 个 字母 需要 沟通 (顺便 说 一 句 ， 我 们 忽略 了 破 折 号 ， 加 
入 它们 只 是 为 了 让 数据 更 容易 阅读 ) 。 和 每 次 一 个 字母 地 口述 全 部 63 
个 字母 相 比 ， 我 们 有 更 好 的 办 法 吗 ? 第 一 步 也许 是 去 识别 数据 中 大 量 
的 重复 部 分 。 事 实 上 ， 大 多 数 被 破 折 号 分 开 的 “* 块 "都 至 少 重 复 了 一 
次 。 因 此 ， 在 口述 这 份 数据 时 ， 你 可 以 通过 “这 部 分 和 我 之 前 告诉 你 的 
某 个 部 分 一 样 ”节省 大 量力 气 。 更 精确 点 讲 ， 你 要 讲 是 多 久 前 说 的 ， 还 


要 讲 重复 的 部 分 有 多 长 一 也 许 是 “ 往 回 数 27 个 字母 ， 然 后 复制 从 那 一 
点 开始 往 下 的 8 个 字母 " 


让 我 们 来 看 看 这 一 策略 在 现实 中 效果 如 何 。 最 开始 的 12 个 字母 没 
有 重复 部 分 ， 你 没有 其 他 选择 ， 只 能 按 字母 逐个 口述 :“V、J、G、 
D、N、Q、M、Y、L、 H、K、W”。 但 接 下 来 的 10 个 字母 和 之 前 的 一 
些 字 母 相同 ， 因 此 你 可 以 说 “back 12，copy 10”( 数 回 12 个 字母 ， 抄 到 
第 10 个 字母 ) 。 再 下 面 7 个 字母 是 新 出 现 的 ， 按 字母 逐个 口述 : “A、 
D、X、S、G、F、0O”。 但 之 后 的 16 个 字母 是 个 大 的 重复 部 分 ， 因 此 你 
可 以 说 “back 17，copy 16”( 数 回 17 个 字母 ， 抄 到 第 16 个 字母 ) 。 接 下 
来 的 10 个 字母 也 是 之 前 的 重复 部 分 ， 因 此 “back 16， copy 10” ( 数 回 16 
个 字母 ， 抄 到 第 10 个 字母 ) 就 可 以 了 。 再 接 下 来 的 两 个 字母 没有 重 
复 ， 需 要 逐个 口述 为 中 、W”。 最 后 的 6 个 字母 是 之 前 的 重复 ， 可 以 通 
过 “back 18，copy 6”( 数 回 18 个 字母 ， 抄 到 第 6 个 字母 ) 沟通 


让 我 们 莹 试 总 结 一 下 这 个 压缩 算法 。 我 们 用 缩写 b 代 替 “back”，c 代 
替 “copy"。 因 此 一 个 如 “back 18，copy 6”( 数 回 18 个 字母 ， 抄 到 第 6 个 
字母 ) 的 返回 抄写 指令 简写 为 b18c6。 因 此 上 面 的 口述 指令 可 以 被 总 结 
成 : 


VJGDNQMYLH-KW-b12c10-ADXSGF-O-b17c16-b16c10-EW-b18c6 


这 个 字符 串 只 包含 44 个 字母 。 原 始 字 符 串 有 63 个 字母 ， 我 们 节省 
了 19 个 字母 ， 接 近 原 始 字 符 串 长 度 的 13。 


同 前 把 戏 中 还 有 一 个 有 趣 的 容 门 。 你 会 如 何 使 用 相同 的 把 戏 压缩 
FG-FG-FG-FG-FG-FG-FG-FG 这 条 消息 ? 〈 和 之 前 一 样 ， 破 折 号 不 是 消 
筷 的 一 部 分 ， 只 是 为 增强 可 读 性 而 添加 。) 消息 中 的 FG 有 8 处 重复 ， 
此 我 们 可 以 单个 口述 前 4 个 ， 然 后 使 用 如 下 的 返回 抄写 指令 : FG-FG- 
FG-FG-b8c8。 这 会 节省 不 少 字母 ， 但 我 们 可 以 做 得 更 好 。 这 需要 一 

一 眼看 起 来 可 能 显得 驶 次 的 返回 抄写 指令 : “back 2， copy 14” ( 数 
回 2 个 字母 ， 抄 到 第 14 个 字母 ) ， 或 简写 为 b2c14。 压 缩 的 消息 就 成 了 
FG-b2c14。 在 只 有 2 个 字母 可 供 抄写 的 情况 下 ， 怎 么 理解 抄 到 第 14 个 字 
母 呢 ? 事实 上 ， 只 要 你 从 重新 生成 的 消息 中 而 非 压缩 的 消息 中 抄写 ， 
就 不 会 有 任何 问题 。 让 我 们 一 步 步 地 来 做 。 在 口述 了 最 开始 的 2 个 字母 
后 ， 我 们 有 了 FG。 然 后 我 们 收 到 b2c14 指 令 ， 于 是 我 们 数 回 2 个 字母 并 
开始 抄写 。 因 为 只 有 2 个 字母 (FG) ， 让 我 们 抄写 这 2 个 字母 ， 当 把 抄 
写 的 字母 加 到 我 们 已 有 的 字 和 母后， 结果 是 FG-FG。 但 现在 多 了 2 个 字 
母 ! 照样 抄写 这 些 字 母 ， 在 将 它们 添加 到 已 有 的 重新 生成 的 消息 上 之 
后 ， 你 得 到 了 FG-FG-FG。 和 前 一 次 一 样 ， 又 多 出 2 个 字母 ， 于 是 你 又 
能 多 抄写 2 个 字母 。 依 此 类 推 ， 直 到 你 抄写 了 所 要 求 的 字母 数 (在 这 个 
例子 中 就 是 14 个 ) 。 要 检验 自己 是 否 理解 了 这 一 点 ， 看 看 你 能 否 得 到 
这 条 压缩 消息 的 解压 版 : Ablc2500H 。 


更 短 符号 把 戏 


要 理解 名 为 “更 短 符号 把 戏 ” 的 压缩 把 戏 ， 我 们 要 更 深入 探究 计算 
机 存储 消息 的 方式 。 你 之 前 可 能 听 说 过 ， 计 算 机 并 不 真 的 存储 a、b、c 
这 样 的 字母 。 所 有 东西 都 以 数字 存储 ， 然 后 根据 一 些 固定 表格 翻译 为 
字母 。 (这 种 在 字母 和 数字 之 间 转 换 的 技术 在 校 验 和 的 讨论 中 有 提 
到 。) 比如 ， 我 们 可 以 同意 “a” 由 27 代 表 ，“b” 由 28 代 表 ,，“c” 由 29 代 
表 。 那 么 字符 串 “abc”* 就 可 以 以 “272829” 的 形式 存储 在 计算 机 中 ， 而 在 
屏幕 上 显示 或 打印 在 纸 上 之 前 ， 这 些 数 字 又 能 轻易 翻译 回 “abc”。 


下 面 的 表格 给 出 了 一 个 完整 列表 ， 列 出 了 计算 机 也 许 想 存 储 的 100 
个 符号 以 及 每 个 符号 对 应 的 两 位 数 代 码 。 顺 便 说 一 下 ， 这 个 特别 的 两 
位 数 代码 集 并 没有 在 任何 现实 计算 机 系统 使 用 ， 但 与 现实 生活 中 使 用 
的 代码 相当 相似 。 两 者 的 主要 区 别 是 ， 计 算 机 并 不 使 用 人 类 使 用 的 十 
进 制 数 系统 。 相 反 ， 也 许 你 知道 ， 计 算 机 使 用 一 个 不 同 的 数位 系统 ， 
这 个 系统 被 称 为 二 进 制 系 统 。 不 过 ， 这 些 细 市 对 我 们 来 说 并 不 重要 。 
更 短 符号 压缩 把 戏 同 时 对 十 进 制 和 二 进 制 数 系统 奏效 ， 因 此 我 们 假装 
计算 机 使 用 十 进 制 ， 以 使 挡 下 来 的 解释 更 容易 。 


仔细 看 看 这 张 符号 表 。 注 意 表 的 第 一 项 给 出 了 字 与 字 之 间 空 格 的 
数字 代码 “00”。 接 下 来 是 从 A (“01”) 到 Z (“26”) 的 大 写字 母 ， 以 及 


从 a (“27”) 到 z (“52”) 的 小 写字 和 母 。 再 接 下 来 是 标点 符号 ， 最 后 一 栏 
中 收录 了 一 些 书 写 非 英语 单词 用 到 的 字符 ， 从 和 (“80”) 到 (“99”) 


那么 计算 机 该 如 何 使 用 这 些 两 位 数 代 码 存 储 “Meet your fiancé 
there”( 去 那 见 你 的 未 婚 夫 ) 这 句 话 呢 ? 很 简单 : 只 要 将 每 个 字符 翻译 
成 对 应 的 数字 代码 并 串联 在 一 起 ; 


Meetyourfiancé there. 


13 31 31 46 00 51 41 47 44 00 32 35 27 40 29 82 00 46 34 31 44 31 66 


在 计算 机 中 ， 数 字 对 之 间 是 没有 间隔 的 ， 认 识 到 这 一 点 很 重要 。 
因此 ， 这 条 消息 实际 上 被 存储 为 一 个 46 位 数 的 持续 字符 
串 : “1331314600514147440032352740298200463431443166”。 当然 ， 
人 类 解读 这 个 字符 串 有 点 难 ， 但 对 计算 机 来 说 却 轻而易举 。 在 将 数字 
翻译 成 字符 显示 在 屏幕 上 之 前 ， 计 算 机 能 轻易 将 数字 分 成 对 。 关 键 是 
在 如 何 分 开 数 字 代码 上 没有 此 义 ， 因 为 每 个 代码 都 只 是 用 两 个 数字 。 
事实 上 ， 这 也 是 A 用 “01” 而 不 是 “1” 代 表 的 原因 。 同 理 ，B 是 “02” 而 不 
是 “2”， 一 直到 字母 1 (“09” 而 不 是 “9”) 。 如 果 我 们 选择 让 A=“1”， 
B=“2”， 依 此 类 推 ， 根 本 就 不 可 能 清楚 地 翻译 消息 。 比 如 ， 消 
息 “1123” 可 以 拆 成 <1 1 23” (翻译 为 AAW) ， 或 “11 2 3” (KBC) 或 “1 1 
2 3”(AABC) 。 因 此 ， 请 记 住 这 一 重要 思想 : 数字 码 和 字符 之 间 的 翻 


译 必 须 清 芭 无 异议 ， 即 便 代 码 在 没有 至 格 的 情况 下 彼此 相 邻 地 存储 。 
我 们 马上 残 要 为 这 个 问题 感到 头痛 ! 


回 到 更 短 符 号 把 戏 。 和 本 书 中 描述 的 许多 本 该 是 技术 性 的 思想 一 
样 ， 人 类 也 一 直 在 运用 更 短 符号 把 戏 ， 用 时 甚至 想 都 没 想 过 。 更 短 符 
号 把 戏 的 基本 思想 是 ， 如 果 你 使 用 某 样 东西 足够 多 次 ， 给 它 起 个 简短 
缩写 是 很 值得 的 。 所 有 人 部 知道 “USA” 是 “United States of 
America” (美利坚 合众国 ) 的 缩写 一 一 我 们 所 有 人 每 次 在 输入 或 说 出 
这 个 由 3 个 字母 组 成 的 代码 “USA”， 而 非 其 代表 的 由 24 个 字母 组 成 的 完 
整 短 语 时 都 节省 了 很 多 力气 。 你 知道 “The sky is blue in color”( 天 空 很 
蓝 ) 的 缩写 吗 ? 这 个 短 句 恰好 也 由 24 个 字母 组 成 。 当 然 不 知道 ! 但 为 
什么 呢 ? “United States of America” 和 “The sky is blue in color” 之 间 有 什 
么 区 别 ? 关键 区 别 在 于 ， 其 中 一 个 短语 的 使 用 频率 要 比 另 一 个 大 得 
多 ， 而 通过 缩写 一 个 经 常 使 用 的 短语 而 非 一 个 极 少 使 用 的 短语 ， 我 们 
可 以 节省 大 量力 气 
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日 于 存储 符号 的 数字 码 


让 我 们 尝试 将 这 个 想法 应 用 到 上 一 页 的 代码 系统 中 去 。 我 们 已 经 
知道 ， 通 过 使 用 经 常用 到 的 东西 的 缩写 ， 我们 市 省 的 力气 能 达到 最 
大 。 字 母 “e" 和 “在 英语 中 使 用 得 最 频 守 ， 让 我 们 答 试 用 更 短 的 代码 来 
代 蔡 这 两 个 字母 。 现 在 ，“e” 是 31，“i” 是 46 一 一 每 个 字母 都 需要 两 个 数 
字 代 表 。 将 两 个 数字 减 成 一 个 数字 呢 ? 假设 现在 “e" 由 8 代表 , “tf 由 9 代 
表 。 这 个 主意 太 好 了 ! 记得 我 们 之 前 是 如 何 编 码 短 句 “Meet your fiancé 
there”( 去 那 见 你 的 未 婚 夫 ) 的 吧 ， 当 时 一 共用 了 46 个 数字 。 现 在 我 们 
可 以 只 使 用 40 个 数字 : 


Meetyourfiancé there. 


138 8 9 005141474400323527402982009 348 448 66 


不 对 的 是 ， 这 一 计划 有 个 致命 缺陷。 计算 机 并 不 存储 单个 字母 间 
的 空格 。 因 此 编码 不 会 像 *13 8890051...44866”， 而 是 
和 “138890051. . . 44866” 一 样 。 你 发 现 问题 了 没有 ? 集中 看 前 5 个 数 
字 ， 也 就 是 13889。 注 意 代码 13 代 表 “M”，8 代 表 “e”*"，9 代 表 “t*， 因 此 数 
字 13889 的 解码 方式 之 一 是 将 其 拆 成 13-8-8-9， 得 到 单词 “Meet”。 但 88 
代表 重读 符号 “WW*， 因 此 数字 13889 也 可 能 拆 分 为 13-88-9， 即 “Mut”。 事 
实 上 ， 人 情况 还 可 以 更 糟 ， 因 为 89 代 表 另 一 个 略为 不 同 的 重读 符号 拉 ”， 
因此 13889 的 另 一 种 可 能 拆 分 是 13-8-89， 代 表 “Mei"。 根 本 没 办 法 分 辩 
这 三 种 可 能 的 翻译 中 哪 种 正确 。 


这 是 一 场 灾 难 ! 我 们 使 用 更 短 的 代码 代表 字母 <e> 和 “的 精巧 计 
划 ， 导 致 了 一 个 根本 不 奏效 的 编码 系统 。 笠 运 的 是 ， 再 多 使 用 一 种 把 
戏 束 能 弥补 。 真 正 的 问题 是 当 我 们 看 到 数字 8 或 9 时 ， 我 们 无 从 分 辨 它 
是 一 个 一 位 数 代码 (不 管 是 “e”* 还 是 “t*) 的 一 部 分 ， 还 是 一 个 以 8 或 9 开 
头 的 两 位 数 代码 (如 重读 符号 “ 约 和 “e* 等 ) 的 一 部 分 。 要 解决 这 个 问 
题 ， 我 们 必须 有 所 牺牲 : 一 些 代 码 实际 上 会 变 得 更 长 。 以 8 或 9 开头 的 
清楚 的 两 位 数 代码 会 变 成 三 位 数 代 码 ， 但 并 不 会 以 8 或 9 开头 。 下 文 的 
图 表 展 示 了 一 种 达成 这 一 目的 的 特殊 方法 。 一 些 标点 符号 也 受到 了 影 
响 ， 但 最 终 情 况 良 好 : 任何 以 7 开头 的 数字 都 是 三 位 数 代码 ， 任 何以 8 
或 9 开始 的 数字 都 是 一 位 数 代 码 ， 任 何以 0、1、2、3、4、5 或 6 开头 的 
数字 都 是 和 前 面 一 样 的 两 位 数 代码 。 因 此 ， 现 在 拆 分 数字 13889 的 方法 
只 有 一 种 (13-8-8-9， 代 表 “Meet”) 一 一 这 也 是 用 于 其 他 任何 正确 编码 
的 数字 字符 串 。 所 有 模糊 性 都 被 消除 了 人， 原始 消息 的 新 编码 如 下 : 


Meetyourfiancé there. 


138 8 9 0051414744003235274029782009 348 448 66 


原始 编码 使 用 了 46 个 数字 ， 这 次 只 使 用 了 41 个 数字 。 这 看 起 来 也 
许 只 是 节省 了 一 点 态 ， 但 如 有 果 是 一 条 更 长 的 信息 ， 市 省 的 长 度 束 会 非 
常 明显 。 比 如 ， 本 书 文本 (只 有 了 文字， 没有 图 像 ， 要 求 将 近 500 KB 
一 一 50 万 字符 一 一 的 存储 空间 。 但 在 使 用 了 刚刚 插 述 的 两 种 把 戏 压缩 
后 ， 本 书 文本 的 体积 减少 到 只 有 160 KB， 不 到 原 体积 的 三 分 之 一 。 


Space 00 

A 01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
33 
12 
13 
14 
15 
16 
17 
18 
19 


= 


Pw 


B 
G 
D 
E 
F 
G 
H 
I 
J 
K 
LE 
M 
N 
O 
P 
Q 
R 
9 


| pm 


使 用 更 短 符号 把 戏 的 数字 码 。 与 上 一 个 表格 的 不 同 以 黑体 显示 ， 两 个 前 用 字母 的 代码 被 缩短 


了 ， 代 价 是 用 更 大 的 数字 增长 了 不 常用 符号 的 代码 。 结 果 是 大 部 分 消息 的 总 长 度 缩短 。 


总 结 : 免费 午餐 来 目 何方 ? 


现在 ， 我 们 理解 了 创建 计算 机 标准 压缩 ZIP 文 件 背 后 的 所 有 重要 概 


念 。 下 面 征 具 体 实施 步 又 : 

步 又 一 

计算 机 使 用 同 前 把 戏 传 输 未 经 压缩 的 原文 件 ， 让 文件 中 绝 大 多 数 
重复 数据 由 短 得 多 的 指令 取代 ， 这 些 指令 会 返回 并 拷贝 其 他 地 方 的 数 
据 。 


步 又 二 : 


计算 机 会 检查 传输 后 的 文件 ， 选 出 经 单 出 现 的 符号 。 比 如 ， 如 有 宁 
原文 件 以 英语 为 书写 语言 ， 那 么 计算 机 束 很 有 可 能 会 发 现 “e” 和 “t* 十 最 
常 出 现 的 两 个 符号 。 随 后 ， 计 算 机 会 创建 一 张 如 下 页 的 表格 ， 用 短 数 
子 码 代表 经 第 用 到 的 符号 ， 用 更 长 的 数字 码 代 表 极 少 用 到 的 符号 。 


步 又 三 


计算 机 会 通过 直接 将 文件 翻译 为 步 又 二 中 的 数字 人 码 来 再 次 传输 文 
[ee 


步骤 二 中 计算 出 的 数字 码 表 也 会 存储 在 ZIP 文 件 中 ， 人 否则 在 后 面 不 
可 能 解码 (并 解压 ) ZIP 文 件 。 注 意 ， 不 同 的 未 压缩 文件 会 得 到 不 同 的 
数字 码 表 。 事 实 上 ， 在 真正 的 ZIP 文 件 中 ， 原 文件 被 分 成 了 小 块 ， 每 个 
块 都 有 不 同 的 数字 码 表 。 计 算 机 能 自动 高 效 地 完成 所 有 这 些 步 又 ， 实 
现 多 种 文件 的 优质 压缩 。 


有 损 压 缩 :不 十 免费 午餐 ,但 也 是 一 笔 好 闫 卖 


到 目前 为 止 ， 我 们 一 直 都 在 讨论 无 损 压 缩 ， 因 为 你 能 将 压缩 过 的 
文件 重新 组 建成 一 开始 使 用 的 原文 件 ， 连 一 个 字母 或 一 个 标点 符号 都 
没有 改变 。 相 反 ， 有 时 候 使 用 有 损 压 缩 妥 有 用 得 多 。 有 损 压 缩 能 让 你 
将 一 个 压缩 过 的 文件 重新 组 建成 一 个 和 原文 件 非 常 类 似 ， 但 并 不 完全 
和 原文 件 相同 的 文件 。 比 如 ， 有 损 压 缩 经 钊 用 于 包含 岁 片 或 音频 数据 
的 文件 : 只 要 照片 在 人 眼中 看 起 来 一 样 ， 在 计算 机 上 存储 照片 的 文件 
征 否 和 在 相机 中 存储 照片 的 文件 相同 其 实 并 不 重要 。 同 样 的 道理 也 适 
用 于 音频 数据 : 只 要 歌 曲 在 人 耳 中 听 起 来 一 样 ， 在 数字 音乐 播放 胡 上 
存储 歌曲 的 文件 是 否 和 在 CD 中 存储 歌曲 的 文件 相同 也 并 不 重要 。 


事实 上 ， 有 时候 有 损 压缩 会 以 更 为 极端 的 方式 使 用 。 我 们 都 看 过 
互联 网 上 的 低 质量 视频 和 图 片 ， 里 面 的 画 质 模糊 ， 音 质 糟 糕 。 这 是 过 
度 使 用 有 损 压 缩 的 结果 ， 目 的 是 让 视频 或 图 像 文件 体积 变 得 非常 小 。 
我 并 不 是 要 说 视频 看 起 来 要 和 原 视频 一 样 ， 但 至 少 也 要 可 以 看 清 。 通 


过 调整 讨 缩 的 “损失 率 ”， 网 站 操作 人 员 可 以 在 看 起 来 和 听 起 来 儿 近 完 
美的 高 质量 大 文件 ， 以 及 有 着 明显 缺陷 但 传输 带 视 要 求 很 少 的 低 质量 
文件 之 间 进 行 选择 。 你 也 可 能 在 数码 相机 上 做 过 同样 的 事 ， 通 党 你 能 
选择 图 像 和 视频 质量 的 不 同 设置 。 如 果 你 选择 高 质量 设置 ， 你 能 在 相 
机 上 存储 的 照片 或 视频 数 ， 就 会 比 选择 低 质量 设置 时 少 很 多 。 这 是 因 
为 高 质量 媒体 文件 要 比 低 质量 媒体 文件 占据 更 多 空间 。 而 这 一 切 都 只 
需 通 过 调整 压缩 “损失 率 ” 来 完成 。 接 下 来 ， 我 们 将 探究 几 种 进行 这 一 
调整 的 把 戏 。 


抛弃 把 戏 


有 损 压 缩 的 一 个 简单 且 有 效 的 方法 古 直 接 抛 弃 一 些 数据 。 让 我 们 
来 研究 一 下 “抛弃 ”把 戏 (leave-it-out trick) 如 何在 黑白 照片 上 运用 。 我 
们 首先 要 了 解 一 点 黑白 照 斤 如 何在 计算 机 上 存储 的 知识 。 照 族 由 大 量 
小 护 组 成 ， 这 些小 后 被 称 为 “像素 *。 每 个 像素 只 有 一 种 颜色 ， 这 种 颜 
色 可 以 是 黑 ， 也 可 以 是 白 ， 或 墨 与 昌之 间 的 任意 灰 度 。 当 然 ， 我 们 通 
常 不 会 意识 到 这 些 像 素 ， 因 为 它们 太 小 了 ， 但 如 果 你 离 显 示 器 或 电视 
屏 足 够 拒 ， 囊 能 看 到 单个 像 聚 。 


在 计算 机 中 存储 的 墨 日 照片 里 ， 每 个 可 能 的 像素 颜色 都 由 一 个 效 
字 代 表 。 比 如， 让 我 们 假设 越 大 的 数字 代表 越 日 的 颜色 ，100 是 最 大 的 
数字 。 因 此 100 代 表白 色 ，0 代 表 黑 色 ，50 代 表 中 等 灰 度 ，90 代 表 浅 灰 


等 等 。 像 素 按照 矩形 方 阵 排列 ， 其 中 每 个 像素 都 代表 图 片 中 一 些 非常 
小 的 部 分 的 颜色 。 方 阵 的 行列 总 数 就 是 图 像 的 “解析 度 ”。 比 如 ， 许 多 
高 清 电 视 的 解析 度 是 1920x1 080， 这 意味 着 图 像 有 1 920 列 和 1 080 行 像 
素 。 像 素 总 数 就 是 1 920 乘 以 1080， 也 就 是 逾 两 百 万 像素 ! 数字 相机 也 
使 用 相同 的 术语 。“megapixel* 只 是 个 用 来 表示 百 万 像素 的 花哨 名 字 。 
因此 ， 一 台 500 万 像素 的 相机 有 足够 多 行 和 足够 多 列 的 像素 ， 当 你 将 行 
数 和 列 数 相 乘 后 ,得 到 的 数 就 会 超过 500 万 。 当 照片 存储 在 计算 机 中 时 ， 
它 就 是 一 个 数字 列表 ， 每 个 像素 都 由 数字 代表 。 


下 图 中 左上 方 的 带 角 楼 的 房屋 照片 , 比 高 清 电视 的 解析 度 低 很 多 : 
只 有 320x240。 不 过 ， 其 像素 数目 仍然 相当 大 (320x240 = 76 800) ， 
存储 这 张 照片 的 文件 ,在 未 压缩 形式 下 占用 了 超过 230 KB 的 存储 空间 。 
1 KB 约 相 当 于 1 000 个 文本 字符 一 一 差不多 是 一 段 电 子 邮 件 的 体积 。 
此 ， 左 上 方 的 图 在 作为 文件 存储 时 ， 需 要 占用 的 空间 约 等 于 200 条 短 电 
子 邮 件 消息 。 


我 们 可 以 用 下 列 非常 简 单 的 技术 来 压缩 这 个 文件 ， 每 两 行 或 每 两 
列 像素 束 忽略 或 “抛弃 ”一 行 或 一 列 。 抛 弃 把 戏 束 古 这 么 价 单 ! 在 这 个 
例子 中 ， 结 果 是 得 到 了 一 张 解析 度 更 小 的 照片 ， 这 张 解析 度 为 160x120 
的 新 照 片 在 图 中 原 照片 下 面 显示 。 新 文件 的 体积 只 有 原文 件 的 四 分 之 
一 ( 约 57 KB) 。 这 是 因为 新 图 片 的 像素 只 有 原 图 片 像素 的 四 分 之 一 多 
一 一 我 们 同时 去 除了 原 图 片 宽 和 高 各 一 半 的 像素 。 相 当 于 原 图 片 的 体 


积 减 小 了 一 半 一 一 一 次 是 水 平方 向 ， 一 次 是 垂直 方 问 
终 体积 只 有 原 体积 的 /4。 


结果 就 古 最 


我 们 还 可 以 再 用 一 次 抛弃 把 戏 。 将 新 的 160x120 像 素 图 片 每 两 行 或 
每 两 列 像素 抛弃 一 行 或 一 列 ， 得 到 男 一 张 80x60 的 新 图 片 ， 结 果 显 示 在 
下 图 的 左下 方 。 这 张 图 片 的 体积 又 缩小 了 3/4， 其 最 终 体积 只 有 14 
KB。 相 当 于 原始 文件 体积 的 6%， 这 一 压缩 比率 令 人 印象 非常 深刻 。 


320 x 240 像 素 
[230KB] 


压缩 


160 x 120 像 素 
[S7KB] 
解压 自 160 x 120 像 素 
[57KB] 


80 x 60 像 素 
[14KB] 


解压 自 80 x 60 像 素 
[14KB] 


抛弃 把 戏 的 压缩 ， 左 边 显示 的 是 原始 图 片 ， 以 及 两 张 该 图 片 的 缩减 版 。 每 张 缩减 后 的 图 


[Gr 


通过 抛弃 前 一 张 图 片 一 般 的 行 和 列 计算 得 出 。 右 边 是 将 缩减 后 的 图 片 解 压 到 原始 图 片 同 


片 ， 者 


区 = 


样 大 小 时 的 解压 效果 图 。 重 构 并 不 完美 ， 重 构图 和 原 图 有 明显 区 别 。 


上 


IN 


但 请 记 住 ， 我 们 在 使 用 有 损 压 缩 ， 并 没有 免费 午餐 。 午 餐 很 便 
宜 ， 但 我 们 必须 付 钱 。 当 我 们 将 压缩 过 的 文件 之 一 解压 到 原 图 大 小 
时 ， 看 看 发 生 了 什么 。 因 为 其 中 一 些 像素 行 和 列 被 删除 ， 计 算 机 必须 
推测 这 些 消失 像素 的 颜色 旦 什么 。 最 简单 的 可 能 推测 征 给 任 一 消失 像 
素 以 其 相 邻 像素 之 一 的 颜色 。 选 择 任 一 相 邻 像素 都 可 以 ， 但 在 这 个 例 
子 里 ， 计 算 机 选择 了 消失 像 杂 正 上 方 和 左边 的 像素 。 


上 


IN 


这 一 解压 机 制 的 结果 显示 在 图 右 侧 。 能 看 到 大 部 分 视觉 特征 得 到 
了 保留 ， 但 在 画 质 和 细节 上 有 一 些 明显 损失 ， 特 别 是 在 树 、 角 楼 房 顶 
以 及 房屋 山形 墙 的 格子 通气 筷 等 复杂 区 域 。 为 外 ， 特 别 钙 在 解压 目 
80x60 图 片 的 版 本 中 ， 你 能 在 房屋 屋顶 的 斜 线 等 区 域 看 到 一 些 相 当 令 人 
不 悦 的 锯齿 。 这 些 现 象 被 我 们 称 为 “压缩 缺陷 ” (compression 
artifact) : 不 仅仅 是 细节 的 损失 ， 而 且 有 损 压 缩 的 某 种 方法 会 在 接 下 来 
的 解压 中 引入 明显 的 新 特征 。 


尽管 抛弃 把 戏 在 理解 有 损 压 缩 的 基本 思想 上 很 有 用 ， 但 在 这 里 描 
述 的 简单 抛弃 把 戏 却 极 少 用 到 。 计 算 机 的 确 会 “抛弃 ”信息 以 实现 有 损 
压缩 ， 但 它们 对 抛弃 哪些 信息 却 要 小 心得 多 。 这 方面 的 第 见 例 了 于 之 
一 ， 就 是 JPEG 图 像 压缩 格式 。JPEG 是 一 种 精心 设计 的 图 像 压缩 技术 ， 


它 在 效果 上 要 比 每 两 行 〈 列 ) 抛弃 一 行 ( 列 ) 的 抛弃 把 戏 好 很 多 。 仔 
细 看 看 下 面 的 图 ， 将 图 片 的 质量 和 大 小 与 上 图 相 比 。 最 上 方 的 JPEG 图 
片 大 小 为 35 KB， 但 几乎 和 原始 图 片 相同 。 通 过 抛 莽 更 多 信息 并 继续 使 
用 JPEG 格 式 ， 我 们 得 到 了 中 间 大 小 为 19 KB 的 图 。 尺 管 房屋 的 格子 通 
气孔 有 些 模 糊 和 细节 上 的 损失 ， 但 中 间 图 片 的 质量 依然 很 棒 。 但 如 宁 
压缩 得 太 厉 害 ，JPEG 格 式 也 会 有 压缩 缺陷 : 最 底部 的 JPEG 图 被 压缩 到 
只 有 12 KB， 你 能 看 到 天 空中 出 现 了 一 些 块 状 效果 ， 在 房 顶 斜 线 右边 的 
大 空 也 出 现 了 一 些 令 人 不 快 的 闹 成 。 


尽 绾 JPEG 抛 弃 战略 的 细节 太 过 技术 化 ， 在 这 里 不 能 完整 描述 ， 但 
这 项 技术 的 基本 原理 还 算 好 说 。JPEG 首 先 将 整 张 图 片 划分 为 8x8 像 素 的 
小 方块 ， 每 个 方块 都 会 被 单独 压缩 。 注 意 ， 在 没有 压缩 的 情况 下 ， 每 
个 方块 代表 8x8=64 个 数字 。 (我 们 假设 这 是 张 黑 日 照片 一 一 如 采 它 是 
彩色 图 片 ， 那 么 束 会 有 三 种 不 同 的 闫 色 ， 数 子 会 是 原来 的 三 售 ， 但 在 
这 里 我 们 不 要 担心 这 一 细节 。) 如 果 方 块 恰好 只 有 一 种 颜色 ， 整 个 方 
块 束 能 由 一 个 数 子 代表， 而 计算 机 束 能 “抛弃 ”63 个 数 子 。 如 琳 方 块 大 
部 分 由 一 种 颜色 组 成 ， 只 有 少数 像素 的 颜色 略 有 不 同 (也 许 一 片 天 空 
的 灰 度 都 相同 ) ， 计 算 机 也 可 以 用 单个 数字 代表 方块 ， 让 方块 得 到 好 
的 压缩 结果 ， 并 在 稍 后 解压 时 只 出 现 少量 错误 。 在 上 图 中 的 最 后 一 张 
图 中 ， 天 至 中 一 些 8x8 的 块 ， 束 是 采用 这 种 方法 压缩 ， 导 致 出 现 了 一 些 
时 他 廊 块 


JPEG[35KB] 


JPEG[19KB] 


JPEG[12KB] 


使 用 有 损 压 缩 机 制 ， 更 高 的 压缩 得 到 的 画 质 更 低 。 这 里 展示 了 使 用 三 种 不 同 JPEG 质 量 级 别 压 


缩 同 一 张 照片 后 得 到 图 片 。 最 上 面 的 图 片 质量 最 高 ， 同 时 要 求 的 存储 空间 也 最 多 。 最 下 面 的 图 


片 质量 最 低 ， 要 求 的 存储 空间 不 到 最 上 面 图片 的 一 半 ， 但 却 有 明显 的 压缩 缺陷 一 一 特别 是 在 天 


如 果 8x8 方 块 从 一 种 颜色 渐变 为 另 一 种 颜色 〈 比 如 左边 是 深 灰 色 ， 
右边 是 浅 灰 色 ) ， 那 么 64 个 数字 也 许 能 被 压缩 到 只 有 2 个 : 一 个 深 灰 的 
值 和 一 个 浅 灰 的 值 。JPEG 算 法 并 不 一 定 这 么 运作 ， 但 它 使 用 了 相同 的 
思想 : 如 果 一 个 8x8 方 块 符合 一 些 已 知 模式 如 时 时 鱼 (constant color) 
或 渐变 色 (smoothly varying color) 的 组 合 ， 那 么 其 大 部 分 信息 就 可 以 
被 抛弃 ， 只 需 存储 每 个 模式 的 级 别 或 量 即 可 。 


JPEG 格 式 在 图 片上 效果 良好 ， 但 对 音频 和 音乐 文件 呢 ? 这 些 文件 
也 能 使 用 有 损 压 缩 去 压缩 ， 而 且 使 用 了 相同 的 基本 思想 : 抛弃 对 成 品 
影响 很 小 的 信息 。MP3 和 AAC 等 流行 首 乐 压缩 格式 通常 使 用 和 JPEG 一 
样 的 高 级 方法 。 首 频 也 会 补 划 分 成 块 ， 每 个 块 都 会 被 单独 压缩 。 在 
JPEG 中 ， 以 特定 方式 变化 的 块 能 用 少量 数字 形容 。 不 过 ， 首 频 压 缩 格 
式 也 能 利用 与 人 耳 有 关 的 已 知事 实 。 特 别 是 ， 有 些 种 类 的 声音 对 人 只 
有 很 小 的 影响 或 没有 影响 ， 因 此 压缩 算法 能 在 不 降低 输出 质量 的 情况 


下 消除 这 些 声音 。 


压缩 算法 的 起 源 


本 章 描 述 的 同 前 把 戏 一 一 用 于 ZIP 文 件 中 的 压缩 方法 之 一 一 一 以 
LZ77 算 法 为 计算 机 科学 家 所 熟知 。 这 一 算法 由 两 位 以 色 列 计算 机 科学 
家 亚伯拉罕 : 伦 佩 尔 (Abraham Lempel) 以 及 雅 各 布 : 齐 夫 (Jacob Ziv) 
于 1977 年 发 表 。 


不 过 ， 要 追溯 压缩 算法 的 起 源 ， 我 们 需要 把 科学 史 向 前 推 30 年 。 
我 们 已 经 了 解 了 克 劳 德 :香农 ， 那 位 以 其 1948 年 论文 创建 信息 理论 领域 
的 贝尔 实验 室 科 学 家 。 香 农 是 纠 错 码 故事 中 (第 五 章 ) 的 两 位 主要 甘 
雄 之 一 ， 但 他 以 及 他 于 1948 年 发 表 的 论文 在 压缩 算法 的 出 现 上 也 扮演 
了 重要 角色 。 


这 并 非 偶 然 。 事 实 上 ， 纠 错 码 和 压缩 算法 是 同一 枚 硬币 的 两 面 。 
两 者 都 来 自 了 元 余 的 想法 ， 我 们 在 第 五 章 详 细 介 绍 了 元 余 的 概念 。 如 果 
一 个 文件 有 元 余 ， 它 束 比 必要 的 长 度 长 。 这 里 重复 一 个 第 五 章 的 简单 
例子 ， 文 件 可 以 使 用 单词 five" 来 代 蔡 数字 “5”。 那 样 的 话 ， 像 fivq” 这 
样 的 错误 就 能 被 轻易 识别 和 纠正 。 因 此 ， 纠 错 码 能 倍 视 为 辐 消 恩 或 文 
件 中 添加 见 余 的 原则 性 方法 。 


压缩 算法 正好 相反 : 它们 会 从 消息 或 文件 中 移 除 见 余 。 很 容易 想 
象 一 个 压缩 算法 会 注意 到 文件 中 经 常 使 用 单词 “five"， 并 用 一 个 更 短 的 
符号 取代 它 (甚至 有 可 能 是 符号 “5”) ， 正 好 反 转 了 纠 错 码 过 程 。 在 现 
实 中 ， 压 缩 和 纠 错 并 不 会 像 这 样 彼此 抵消 。 相 反 ， 好 的 压缩 算法 会 移 
除 低 效 见 余 ， 而 纠 错 编 码 会 增加 男 一 种 更 高 效 的 见 余 。 因 此 ， 首 先 压 
缩 一 条 信息 ， 表 往 里 面 添 加 一 些 纠 错 码 非常 常见 。 


再 说 回 香 农 ， 他 于 1948 年 发 明 的 重要 论文 除了 许多 早 越 页 献 之 
外 ， 还 包 售 对 最 早期 压缩 拉 术 之 一 的 搬 述 。 有 拨 省 理工 学 院 教 授 罗 伯 特 : 
法 诺 (Robert Fano) 大 约 在 同时 发 明了 这 一 技术 ， 这 一 方法 现在 以 香 
农 一 法 诺 编码 (Shannon-Fano coding) 命名 。 事 实 上 ， 香 农 一 法 诺 编 码 
征 一 种 实施 更 短 符号 把 戏 的 特殊 方法 ， 我 们 在 本 章 前 面 描述 了 更 短 符 
号 把 戏 。 我 们 很 快 整 会 知道 ， 香 农 一 法 诺 编码 很 快 束 彼 男 一 种 算法 取 


香农 和 法 诸 都 意识 到 ， 尽 管 他 们 的 方法 都 既 实 用 又 高 效 ， 但 却 不 
是 最 好 的 算法 : 香农 通过 算术 证 明了 肯定 有 更 好 的 压缩 技术 存在 ， 但 
还 未 找到 实现 它们 的 方法 。 同 时 ， 法 诺 在 矿 省 理工 教授 一 | 信息 理论 
的 研究 生 课程 ， 他 将 实现 优化 压缩 的 问题 作为 该 课程 学 期 论文 的 可 选 
项 之 一 。 出 人 意料 的 是 ， 法 诺 的 一 位 学 生 解 决 了 这 一 问题 ， 得 到 了 一 
种 针对 每 个 符号 取得 最 佳 可 能 压缩 的 方法 。 这 名 学 生 就 是 大 卫 : 霍 夫 
曼 ， 他 的 技术 一 一 现在 以 霍 夫 受 编 码 来 命名 一 一 则 是 更 短 符 号 把 戏 的 
男 一 个 例子 。 霍 夫 曼 编码 仍然 是 一 种 基础 压缩 算法 ， 被 广泛 用 于 通信 
和 数据 存储 系统 。 


[1] 原 注 : 答案 是 字母 A 重复 251 次 。 


第 八 章 
数据 库 
一 一 追求 一 致 性 的 征程 


“数据 ! 数据 ! 数据 ! ”他 不 耐烦 地 喊 道 : “没有 数据 怎么 推导 。” 


村 


阿 瑟 -柯南 - 道 尔 


3 


《福尔摩斯 探 案 集 》 之 《 桐 山 毛 样 案 》 (The Adventure of the Copper Beeches) 


想象 如 下 神秘 仪式 : 一 个 人 从 桌 上 拿 起 一 省 特别 印 制 的 纸 (支票 
簿 ) ， 在 上 面 写 下 一 些 数字 ， 再 加 上 一 个 带 花 饰 的 签名 。 随 后 ， 这 个 
人 把 这 省 纸 最 上 面 的 一 张 纸 撕 下 来 ， 放 进 信 封 ， 再 用 男 一 张 纸 ( 邮 
票 ) 贴 在 信封 正面 。 最 后 ， 这 个 人 把 信封 带 到 外 面 ， 走 过 街道 尽头 ， 
将 信封 放 入 一 个 大 箱子 内 。 


这 十 任 何 交 账单 的 人 一 一 电话 账单 、 电 费 账 单 、 信 用 卡 账 单 等 
每 月 都 要 进行 的 仪式 。 直 到 21 世 纪 之 交 时 ， 在 线 账单 文 付 和 在 线 
银行 系统 才 发 展 起 来 。 和 这 些 系统 的 位 便 性 相 比 ， 之 前 基于 纸张 的 方 
法 收 时 费力 、 极 其 低 效 。 


哪些 技术 让 这 一 转变 成 为 可 能 ?最 显然 的 答案 是 互联 网 的 到 来 ， 
没有 互联 网 ， 任 何 形式 的 在 线 通信 都 不 可 能 。 另 一 项 关键 技术 是 公 铀 
加 密 ， 这 一 点 我 们 已 经 在 第 四 草 讨论 过 。 没 有 公 角 加密， 机密 财务 信 
忌 束 不 能 通过 互联 网 安全 地 进行 传输 。 不 过 ， 在 线 交 易 至 少 还 需要 男 
一 种 至 关 重 要 的 技术 : 数据 库 。 辛 好 绝 大 多 数 计算 机 用 户 不 用 意识 到 
数据 库 的 存在 ， 但 基本 上 所 有 在 线 交 易 都 会 使 用 成 熟 的 数据 库 技术 处 
理 。 计 算 机 科学 家 们 自从 20 世 纪 70 年 代 就 开始 开发 数据 库 技术 。 


数据 库 针 对 交易 处 理 中 的 两 个 主要 问题 : 高 效 性 和 可 靠 性 。 数 据 
库 通过 算法 实现 高 效 性 和 可 靠 性 ， 这 些 算 法 允许 成 和 上 万 的 客户 在 不 
产生 任何 冲突 或 不 一 致 的 情况 下 同时 进行 交易 ， 也 可 以 在 硬盘 等 计算 


机 组 件 出 现 故 障 的 情况 下 保持 数据 完整 ， 而 硬 副 故障 通常 会 导致 严重 
的 数据 损失 。 在 线 银行 就 是 一 个 标准 的 需要 卓越 高 效 性 (同时 服务 从 
多 客户 且 不 能 产生 任何 错误 或 不 一 致 ) 和 近乎 完美 的 可 靠 性 的 应 用 例 
子 。 为 收 束 我 们 的 讨论 ， 我 们 会 经 党 返回 在 线 银行 的 例子 。 


本 章 中 ， 我 们 将 了 解数 据 库 背 后 三 种 美丽 的 基础 思想 : 预 写 日 志 
记录 (write-ahead logging) 、 两 阶段 提交 (two-phase commit) 和 关系 
数据 库 (relational database) 。 这 些 思想 让 存储 特定 种 类 重要 信息 的 数 
据 库 拉 术 占 据 了 绝对 的 主 罕 地 位 。 和 前 面 一 样 ， 我 们 将 尝试 专注 于 每 
种 思想 背后 的 核心 润 见 ， 认 识 一 种 让 思想 奏效 的 把 戏 。 预 写 日 志 记 隶 
的 基础 是 “ 待 办 事项 表 把戏 ”(to-do list trick) ， 我 们 将 首先 处 理 这 一 把 
戏 。 之 后 ， 我 们 会 转移 到 两 阶段 提交 协议 ， 用 简单 但 强大 的 “预备 提交 
把 戏 ” (prepare-thencommit trick) 描述 。 最 后 ， 我 们 会 通过 了 解 有 
关 “ 虚 表 把 戏 ”(virtual table trick) 的 知识 ， 一 宇 关 系数 据 库 的 世界 。 


但 在 学 习 这 些 把 戏 之 前 ， 让 我 们 先 尝 试 消除 数据 库 的 神秘 感 ， 明 
日 数据 库 是 什么 。 事 实 上 ， 即 便 古 在 技术 性 计算 机 科学 文献 
中 ，“database” (数据 库 ) 这 个 单词 都 代表 很 多 不 同 的 事物 ， 因 此 不 可 
能 给 它 下 一 个 单一 的 、 正 确 的 定义 。 但 绝 大 多 数 专 家 都 同意 ， 数 据 库 
有 别 于 其 他 存储 信息 的 方式 的 关键 特征 是 ， 数 据 库 中 的 信息 有 一 个 预 
定义 结构 。 


要 理解 这 里 的 “结构 ”意味 着 什么 ， 让 我 们 首先 来 看 一 个 非 结 构 化 
言 轧 的 例子 : 


罗 西 娜 35 安 ， 她 和 26 图 的 玛 特 是 朋友 。 静 宜 37 岁 ， 苏 迪 普 31 
岁 。 玛 特 、 静 宜 和 苏 迪 普 都 是 朋友 。 


这 就 是 Facebook 或 MySpace 等 社交 网 站 需要 存储 的 与 其 成 员 有 关 的 
那 类 人 信息。 不过， 这 些 社交 网 站 自然 不 会 如 此 上 毫 无 结构 地 存储 信息 。 


下 面 是 相同 信息 的 结构 化 形式 : 


计算 机 科学 家 称 这 种 结构 为 表 (table) 。 表 的 每 一 行 都 包含 和 单 
件 事 情 〈 在 这 个 例子 里 就 是 一 个 人 ) 有 关 的 信息 。 表 的 每 一 栏 都 包含 
一 个 特定 种 类 的 信息 ， 如 一 个 人 的 年 龄 或 名 子 。 数 据 库 通 党 由 许多 表 
组 成 ， 但 为 简单 起 见 ， 我 们 最 开始 的 例子 只 会 使 用 一 个 表 。 


很 显然 ， 让 人 和 计算 机 操纵 结构 化 表格 中 的 数据 ， 要 比 上 个 例子 
中 非 结 构 化 的 自由 文本 远 为 高 效 。 但 数据 库 对 它们 的 作用 要 远 比 便 于 


使 用 多 得 多 。 


我 们 进入 数据 库 世 界 的 旅程 将 从 一 个 新 概念 开始 : 一 致 性 
(consistency) 。 我 们 很 快 就 会 发 现 ， 数 据 库 从 业者 痴迷 于 一 致 性 ， 而 
且 这 么 做 还 有 着 很 好 的 理由 。 从 简单 意义 上 来 说 ,“ 一 致 性 ?指数 据 库 
中 的 信息 并 不 目 相 了 矛盾。 如 果 数 据 库 中 有 矛盾 之 处 ， 我 们 束 碰 到 了 数 
据 库 管理 员 最 粳 糕 的 置 攀 : 不 一 至。 不过， 一 开始 不 一 致 鲜 如 何 产 生 
的 呢 ? 想象 上 表 的 前 两 行 略为 改变 : 


静 宜 | 37 || 玛 特 ， 苏 迪 兽 


你 能 发 现 问题 所 在 吗 ? 从 第 一 行 看 ， 罗 西 娜 是 静 宜 的 朋友 。 但 从 
第 二 行 来 看 ， 静 宜 并 没有 成 为 罗 西 娜 的 朋友 。 这 违背 了 朋友 的 基本 概 
念 ， 只 有 两 个 人 同时 是 朋友 ， 才 能 称 彼 此 为 朋友 。 不 得 不 承认 ， 

不 一 致 的 例子 相当 温和 。 想 象 一 个 更 严肃 的 例子 ， 假 设 用 “婚姻 ”的 概 
念 取代 “朋友 ”。 那 么 结果 会 是 A 和 B 结 了 婚 ， 但 B 又 和 C 结 了 婚 一 一 这 种 
情况 在 许多 国家 都 违法 。 


实际 上 ， 当 新 数据 加 入 数据 库 时 ， 这 种 不 一 致 很 容易 避免 。 计 算 
机 非常 擅长 照 革 办事， 因此 让 数据 库 遵 循 “如 果 A 和 B 结 了 婚 ， 那 么 B 必 
须 也 和 A 结婚 ”的 规则 会 很 容易 。 如 有 果 有 人 试图 输入 一 条 违反 这 条 规则 
的 新 行 ， 他 们 会 收 到 一 条 错误 消 轧 ， 输 入 也 会 失败 。 因 此 ， 在 简单 规 
则 的 基础 上 确保 一 致 性 并 不 需要 任何 机 巧 把 戏 。 


但 其 他 种 类 的 不 一 致 需要 更 为 精巧 的 解决 方案 。 我 们 将 在 下 一 部 
分 研究 其 中 一 种 不 一 致 情况 。 


事务 和 竺 办 事项 表 把 戏 


事务 (Transaction) 极 有 可 能 是 数据 库 世 界 中 最 重要 的 思想 。 但 要 
理解 它们 是 什么 ， 以 及 它们 为 什么 必要 ， 我 们 需要 接受 有 关 计 算 机 的 
两 个 事实 。 你 也 许 非常 熟悉 第 一 个 事实 : 计算 机 程序 会 朋 溃 一 一 当 一 
个 程序 朋 江 时 ， 它 会 丢掉 所 有 正在 处 理 的 东西 。 只 有 安放 在 计算 机 文 


件 系 统 中 的 信息 会 得 到 保存 。 我 们 要 知道 的 第 二 个 事实 不 太 为 人 所 
知 ， 但 却 极其 重要 : 硬盘 和 内 存 条 等 计算 机 存储 设备 一 次 只 能 写 入 少 
量 数据 一 一 基本 上 在 500 个 字符 左右 。 (如 采 你 对 技术 术语 感 兴 趣 ， 我 
这 里 说 的 是 硬盘 扇 区 大 小 <sector size> ， 通 常 一 个 扇 区 可 以 存放 512 个 字 
市 的 信息 。 而 内 存 的 相关 度量 单位 是 页 大 小 <page size>， 闪 存 每 页 能 存 
储 成 千 上 万 个 字 节 的 信息 。) 作为 计算 机 用 户 ， 我 们 从 未 注意 在 一 台 
设备 上 存储 数据 时 的 小 容量 限制 ， 因 为 现代 设备 每 秒 能 执行 成 千 上 万 
次 这 种 500 个 字符 的 写 入 操作 。 但 磁 副 内 容 每 次 只 能 改变 数 百 个 字符 的 
现实 依旧 。 


这 究竟 和 数据 库 有 什么 关系 ? 它 产 生 了 一 个 极其 重要 的 后 果 : 一 
般 来 说 ， 计 算 机 在 任何 时 候 都 只 能 更 新 一 行 数据 库 信 息 。 不 笠 的 是 
上 面 那个 非常 小 的 简单 例子 并 没有 展示 这 一 点 。 上 面 整 个 表 只 包含 
到 200 个 字符 ， 因 此 在 这 个 特例 里 ， 计 算 机 应 该 能 一 次 更 新 两 行 。 但 通 
常 来 说 ， 对 于 任何 一 个 大 小 合理 的 数据 库 而 言 ， 更 改 两 行 的 确 需 要 两 
次 单独 的 亿 c 姐 操作 。 
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在 了 解 了 这 些 育 景 后 ， 我 们 束 能 触及 问题 核心 了 。 许 多 对 数据 库 
看 似 侧 单 的 变更 要 求 更 改 两 行 或 更 多 。 我 们 现在 已 经 知道 ， 更 改 两 行 
不 能 通过 一 次 磁 僵 操作 实现 ， 因 此 数据 库 更 新 会 导致 两 次 或 更 多 的 磁 
副 操 作 。 但 计算 机 可 能 在 茶 个 时 间 朋 并 。 如 来 计算 机 在 这 样 的 两 次 位 
盘 操 作 之 间 朋 溃 怎 么 办 ? 计算 机 会 重启 ， 但 它 会 起 掉 之 前 计划 执行 的 


操作 ， 有 可 能 一 些 必要 更 改 从 未 进行 。 换 言 之 ， 数 据 库 可 能 处 于 不 一 
致 状态 ! 


在 这 种 情况 下 ， 毅 站 后 的 不 一 致 问题 看 起 来 也 许 会 相当 学 术 化 。 
因此 ， 我 们 将 通过 两 个 例子 来 癸 究 这 一 极端 重要 的 问题 。 让 我 们 从 一 
个 更 简单 的 数据 库 开 始 : 


这 个 非常 单调 、 令 人 泪 开 的 数据 库 列 出 了 三 个 孤独 的 人 人。 现在 假 
设 罗 西 娜 和 静 宜 成 为 朋友 ， 我 们 要 更 痢 数 据 库 来 反映 这 一 令 人 高 兴 的 
事件 。 正 如 你 知道 的 ， 这 一 更 新 需要 同时 更 改 表 前 两 行 一 一 而 且 正 如 
我 们 之 前 讨论 的 ， 这 通 利 会 要 求 两 次 单独 的 磁盘 操作 。 假 设 我 刚刚 更 
新 了 第 一 行 。 在 这 次 更 新 后 ， 在 计算 机 有 机 会 执行 第 二 次 磁盘 操作 更 
新 第 二 行 前 ， 数 据 库 的 情况 如 下 : 


到 目前 为 止 ， 情 况 一 切 良 好 。 现 在 ， 数 据 库 程序 只 需 更 新 第 二 
行 ， 任 务 就 完成 了 。 但 等 等 : 如 果 计 算 机 在 数据 库 程 序 有 机 会 这 么 做 
之 前 束 衣 溃 了 呢 ? 那么 在 计算 机 重启 后 ， 它 不 会 知道 第 二 行 仍 需要 更 
新 。 数 据 库 会 像 前 面 一 张 图 一 样 : 罗 西 娜 和 静 宜 成 了 朋友 ， 但 静 宜 没 
有 和 罗 西 娜 成 为 朋友 。 这 束 是 让 人 害怕 的 不 一 致 性 。 


我 已 经 提 到 过 ， 数 据 库 操 作 员 痴迷 于 一 致 性 ， 但 直到 现在 ， 一 致 
性 看 起 来 也 不 怎么 像 个 大 事 。 毕 竞 ， 静 宜 在 一 个 地 方 被 记 孙 和 某 人 成 
为 朋友 ， 在 为 一 个 地 方 的 记 杂 里 则 没有 朋友 ， 这 真 的 重要 吗 ? 我 们 长 
至 能 想象 出 一 个 经 常 扫描 数据 库 的 自动 化 工具 ， 寻 找 像 这 样 的 矛盾 之 
处 并 修正 它们 。 事 实 上 ， 像 这 样 的 工具 确实 存在 ， 并 被 用 于 一 致 性 处 
于 次 要 位 置 的 数据 库 中 。 你 甚至 可 能 遇 到 过 这 样 的 例子 ， 一 些 操作 系 
统 在 月 江 后 重启 时 ， 会 检查 整个 文件 系统 的 不 一 致 性 。 


但 确实 存在 不 一 致 性 非常 有 害 且 不 能 为 目 动 化 工具 纠正 的 情况 。 
在 银行 账户 间 转 钱 就 是 个 经 典 例子 。 下 面 是 另 一 个 简单 数据 库 : 


账户 名 称 


扎 迪 


扎 迪 


皮 德 罗 


假设 扎 迪 要 求 从 她 的 支票 账户 转 200 美 元 到 她 的 存款 账户 。 就 和 前 
面 的 例子 一 样 ， 这 需要 更 新 两 行 ， 会 连续 用 到 两 次 单独 的 磁 副 操作 。 
首先 扎 迪 的 支票 余额 会 减少 到 600 美 元 ， 其 次 她 的 存款 余额 会 增加 到 
500 糯 元。 而 如 有 果 我 们 在 这 两 次 操作 间 遭 遇 朋 演 ， 数 据 库 看 起 来 会 这 
样 : 


账户 名 称 账户 余额 


扎 迪 票 
扎 迪 $ 300 


| 


换 句 话说 ， 这 对 扎 迪 来 说 完全 是 一 场 灾 难 : 在 裔 让 前 ， 扎 迪 的 两 
个 账户 一 共有 1100 美 元 ， 但 现在 她 只 有 900 美 元 了 。 她 从 未 取 过 钱 ， 但 
200 美 元 就 这 么 完全 消失 了 1! 而 且 还 没有 办 法 侦 测 到 这 一 情况 ， 因 为 数 
据 库 在 月 溃 后 完全 自 相 一 致 。 在 这 里 ， 我 们 遇 到 了 一 种 更 为 细微 的 不 
一 致 性 ， 新 数据 库 与 其 崩 演 前 的 状态 不 一 致 。 


这 点 很 重要 ， 也 值得 更 细致 地 进行 研究 。 在 第 一 个 不 一 致 性 的 例 
子 里 ， 我 们 节 终 得 到 的 数据 库 自 证 为 不 一 致 : A 和 B 成 为 朋友 ， 但 B 却 
没有 和 A 成 为 朋友 。 这 种 不 一 致 性 只 需 通 过 检查 数据 库 束 能 侦 测 到 ( 尽 
管 侦 测 过 程 可 能 会 非常 耗 时 ， 如 采 数 据 库 包 含 数 百 万 力 或 数 十 亿 条 记 
录 的 话 ) 。 在 第 二 个 不 一 致 性 的 例子 里 ， 如 果 把 数据 库 所 处 的 状态 当 
作 某 个 时 刻 的 截图 ， 那 么 这 一 状态 完全 合理 。 没 有 规则 规定 这 些 账户 
的 余额 必须 是 多 少 ， 或 规定 余额 之 间 存 在 任何 关系 。 不 过 ， 如 果 我 们 
按时 间 顺 序 检查 数据 库 状 态 ， 就 能 观察 到 不 一 致 行 为 。 有 三 个 事实 和 
这 一 情况 有 关 : (1) 在 开始 转账 前 ， 扎 迪 有 1 100 美 元 (2) 在 崩 演 
后 ， 她 有 900 美 元 ; (3) 在 干扰 期 间 ， 她 并 未 取 钱 。 这 三 个 事实 放 在 
一 起 束 显 得 不 一 致 ， 但 不 一 致 性 不 能 通过 在 特定 时 刻 检查 数据 库 侦 测 
到 。 


为 避免 这 两 种 不 一 致 性 ， 数 据 库 研究 人 员 们 提出 了 * 事 务 ” 的 概念 
一 一 如 条 想 让 数据 库 最 后 保持 一 致 性 ， 束 必须 在 数据 库 上 完成 一 系列 
更 改 。 如 果 一 次 事务 中 只 执行 了 一 些 更 改 ， 那 么 数据 库 最 后 就 可 能 不 
一 致 。 这 一 想法 很 简单 ， 但 极其 有 效 。 数 据 库 程序 员 可 以 发 出 如 “begin 
transaction” (开始 事务 ) 这 样 的 指令 ， 然 后 对 数据 库 做 出 大 量 互相 依赖 
的 更 改 ， 并 以 “end transaction” (终止 事务 ) 指令 完成 。 数 据 库 能 保证 
程序 员 的 更 改 都 会 完成 ， 即 便 运 行 数 据 库 的 计算 机 在 事务 中 途 毅 省 并 
重 局 。 


为 确保 绝对 正确 ， 我 们 还 应 该 意识 到 另 一 种 可 能 性 的 存在 : 在 裔 
溃 并 重启 后 ， 数 据 库 也 可 能 返回 事务 开始 前 的 状态 。 但 如 果 出 现 了 这 
种 情况 ， 程 序 员 会 收 到 一 条 事务 失败 ， 必 须 重 新 提交 的 通知 ， 以 防 造 
成 任何 损害 。 我 们 稍 后 将 更 细致 地 讨论 这 种 可 能 性 ， 在 关于 *“ 回 滚 ” 事 
务 (rolling back transaction) 部 分 讲 到 。 至 于 现在 ， 关 键 在 于 不 管事 务 
否 完成 还 是 回 滚 ， 数 据 库 仍然 保持 一 致 性 。 


束 目 前 的 插 述 来 看 ， 我 们 似乎 没有 必要 痴迷 于 朋 江 的 可 能 性 。 毕 
竞 ， 裔 省 在 运行 现代 应 用 程序 的 现代 操作 系统 上 极 少 发 生 。 对 这 一 问 
题 有 两 种 回答 。 诈 和 匈 ， 这 里 所 说 的 “ 毅 总 ?相当 宽 沁 : 包括 任何 可 能 导 
致 计算 机 停止 运作 进而 损失 数据 的 事件 。 可 能 的 事件 包括 断 电 、 硬 强 
出 错 、 其 他 硬件 出 错 以 及 操作 系统 或 应 用 程序 中 的 漏洞 。 其 次 ， 即 便 
这 些 泛 指 的 朋 演 极 少 发 生 ， 一 些 数据 库 也 不 能 承受 朋 演 的 风险 : 银 


行 、 保 险 公 司 和 其 他 数据 代表 实际 金钱 的 组 织 ， 这 些 组 织 不 能 承受 任 
何 情况 下 记录 中 出 现 不 一 致 性 的 风险 。 


上 面 描述 的 解决 方案 的 简洁 性 (开始 一 笔 事 务 ， 执 行 必要 的 操 
作 ， 然 后 终止 事务 ) 听 起 来 也 许 太 过 美好 ， 不 能 成 真 。 事 实 上 ， 下 一 
部 分 描述 的 “ 待 办 事项 列表 ”把 戏 束 相 对 简单 ， 它 也 能 完成 处 理事 务 。 


竺 办 事项 列表 把 戏 


并 不 是 所 有 人 都 井井有条 “。 但 不 管 我 们 是 否 井 并 有 条 ， 我 们 都 见 
过 非常 有 条 理 的 人 使 用 的 强力 武 鼠 之 一 : 竺 办 事项 列表 。 也 许 你 并 不 
喜欢 制作 列表 ， 但 很 难 质疑 其 有 用 性 。 如 采 你 在 一 天 中 有 10 项 任务 要 
完成 ， 把 它们 写 下 来 一 一 最 好 按 完成 效率 排序 一 一 就 是 个 非常 好 的 开 
端 。 当 你 在 工作 日 中 间 时 刻 分 心 〈 是 否 该 说 “* 般 省 ”? ) 时 ， 一 张 竺 办 
事项 列表 会 尤其 有 用 。 如 果 你 不 知 为 何 坪 记 了 和 列 下 的 任务 ， 扫 一 眼 待 
办 事项 列表 束 能 让 你 记 起 。 


数据 库 事 务 要 使 用 一 种 特殊 的 每 办 事项 列表 来 完成 。 这 也 是 我 们 
称 之 为 “ 竺 办 事项 列表 ”把戏 的 原因 ， 尽 管 计 算 机 科学 家 用 "* 预 写 日 志 记 
录 ” 这 一 术语 称呼 它 。 待 办 事项 列表 的 基本 思想 是 ， 维 护 一 个 数据 库 计 
划 采 取 的 动作 日 志 。 日 志 存 储 在 人 硬盘 或 其 他 一 些 永 久 性 存储 介质 中 ， 
这 样 ， 日 志 中 的 信息 整 能 骏 免 于 朋 并 和 重启。 在 一 项 事务 的 任何 动作 


得 到 执行 前 ， 它 们 都 被 记录 在 日 志 中 ， 然 后 再 保存 到 磁 强 里 。 如 有 果 事 
务 成 功 完成 ， 我 们 惑 能 删除 日 志 中 的 待 办 事项 列表 ， 进 而 节省 一 些 空 
间 。 如 此 ， 上 面 摘 述 的 扎 迪 转账 事务 将 分 两 步 进行 。 首 先 ， 下 图 元 侧 
的 数据 库 表 不 动 ， 我 们 在 日 志 中 写 下 本 次 事务 的 竺 办 事项 列表 : 


账户 名 称 | 账户 类 型 | 账户 余额 


$ 800 
$ 300 
$ 150 


1. 开始 转账 事 


4. 终止 转账 事务 


在 确保 日 志 项 保存 到 了 某 种 永久 性 存储 介质 《如 磁盘 ) 上 后 ， 我 
们 对 表 进 行 计划 好 的 变更 : 


账户 名 称 账户 余额 


到 
bay 


1. 开始 转账 事 


3. 将 扎 迪 的 储蓄 账户 余额 从 300 美 元 变 为 500 美 元 


4. 终止 转账 事务 


假设 变更 已 保存 到 磁盘 ， 日 志 项 束 能 被 删除 了 。 


但 这 个 例子 很 容易 。 假 如 计算 机 在 事务 中 途 意外 地 朋 江 了 呢 ? 和 
前 面 一 样 ， 让 我 们 假设 崩溃 发 生 在 扎 迪 的 文 票 账 户 被 扣除 款项 之 后 ， 
储 荔 账户 增加 歌 项 之 前 。 计 算 机 重 司 ， 数 据 库 重 局 后 在 硬盘 中 发 现 如 
下 信息 : 


账户 名 称 | 账户 类 型 | 账户 余额 


$ 600 
$ 300 
$ 150 


1. 开始 转账 事 


3. 将 扎 迪 的 储蓄 账户 余额 从 300 美 元 变 为 500 美 元 


4. 终止 转账 事 


大 大 小 小 的 原子 性 


理解 事务 还 有 另外 一 种 途径 : 从 数据 库 用 户 的 观点 来 看 ， 每 一 笔 
事务 都 是 原子 态 (atomic) 。 尽 管 物理 学 家 们 许多 年 前 就 知道 了 如 何 
拆散 原子 ,“atomic" 的 原意 来 自 布 腊 ， 和 意味 着 “不 可 分 割 ”。 当 计算 机 科 
学 家 说 “原子 态 ”" 时 ， 他 们 指 的 是 原意 。 因 此 ， 一 笔 原 始 态 的 事务 不 能 
被 分 成 更 小 的 操作 :要么 整 笔 事务 成 功 地 完成 ， 要 么 数据 库 处 于 其 原 
台 状 态 ， 束 像 事务 从 未 开始 一 般 。 


待 办 事项 列表 把 戏 给 了 我 们 原子 态 事 务 ， 反 过 来 又 保证 了 一 致 

性 。 这 是 我 们 典型 例子 一 一 一 个 针对 在 线 银行 的 高 效 、 完 全 可 靠 的 数 
据 库 一 一 中 的 一 个 关键 和 要素。 不过， 我 们 还 未 达到 那 一 步 。 一 致 性 并 
不 提供 足够 的 高 效 性 或 可 靠 性 。 当 和 我 们 很 快 就 会 谈 到 的 锁定 技术 
(locking technique) 结合 时 ， 待 办 事项 列表 把 戏 在 数 千 名 消费 者 同时 
连接 数据 库 时 都 能 保持 一 致 性 。 这 的 确 会 提高 效率 ， 因 为 许多 消费 者 
能 同时 得 到 服务 。 而 且 答 办 事项 列表 把 戏 还 提供 了 一 种 衡量 可 徘 性 的 


好 方法 ， 因 为 它 能 阻止 不 一 致 性 。 等 别 定 ， 竺 办 事项 列表 把 戏 排除 了 
数据 损坏 ， 但 并 未 消除 数据 丢失 。 下 一 个 数据 库 把 戏 一 一 预备 提交 把 
戏 一 一 将 为 朝 癌 阻止 任何 数据 丢失 的 目标 做 出 巨大 进步 。 


用 于 复制 数据 库 的 预备 提交 把 戏 


我 们 游 哎 精巧 数据 库 技 术 的 旅程 将 继续 ， 接 下 来 我 们 将 直到 名 
为 “预备 提交 把 戏 ” 的 算法 。 要 了 解 这 一 把 戏 的 动机 ， 我 们 需要 理解 两 
个 与 数据 库 有 天 的 事实 : 站 和 完 ， 它 们 会 被 复制 ， 也 束 是 说 同一 数据 库 
的 多 份 拷贝 被 存储 在 不 同 地 点 其 次 ， 有 时 候 数 据 库 事务 必须 被 取 
消 ， 这 人 被 称 为 “ 回 深 ”或 “放弃 ”一 次 事务 。 在 加 入 预备 提交 把 戏 之 前 ， 我 
们 将 简短 地 了 解 这 两 个 概念 。 


复制 数据 库 


通过 完成 或 回 深 朋 并 前 正在 进行 的 事务 ， 答 办 事项 列表 把 戏 允 许 
数据 库 从 特定 种 类 的 朋 演 中 恢复 。 但 前 提 是 假设 所 有 在 月 汝 前 保存 的 
数据 都 还 在 。 假 如 计算 机 硬盘 永久 损坏 ， 其 中 部 分 或 所 有 数据 都 丢失 
了 呢 ? 这 只 是 计算 机 永久 丢失 数据 的 途径 之 一 。 其 他 原因 包括 软件 漏 
洞 “数据库 程 序 本 身 或 操作 系统 漏洞 ) 和 硬件 出 错 。 这 些 问题 都 能 导 


致 计算 机 覆盖 你 认为 安全 地 存储 在 硬盘 上 的 数据 ， 抹 掉 并 用 垃圾 代 
丛 。 很 明显 ， 竺 办 事项 列表 把 戏 在 出 现 这 种 情况 时 不 能 帮助 我 们 。 


然而 ， 在 一 些 情况 中 根本 不 能 出 现 数 据 丢 失 。 如 果 银 行 丢失 了 你 
的 账户 信息 ， 你 会 极度 郁 疝 ， 银 行 可 能 会 面临 严重 的 法 律 和 财务 您 
如。 这 也 适用 于 证 券 交 易 公 司 ， 假 如 它 在 执行 你 下 的 订单 时 丢失 了 区 
易 细节 。 的 确 ， 任 何 有 可 观 网 络 销售 额 的 公司 〈 易 贝 和 亚马逊 就 是 最 
大 的 例子 ) 都 承担 不 起 损失 或 损坏 任何 消费 者 信息 的 后 果 。 但 在 有 成 
千 上 万 台 计 算 机 的 数据 中 心里 ， 每 天 都 有 许多 组 件 《特别 是 硬盘 ) 出 
错 。 这 些 组 件 上 的 数据 每 天 都 丢失 。 银 行 如 何 能 在 面临 这 种 数据 丢失 
的 惨状 下 保持 你 的 数据 安全 呢 ? 


显然 同时 也 广泛 使 用 的 解决 方案 是 ， 保 有 两 份 及 以 上 的 数据 库 找 
贝 。 每 份 数 据 库 拷贝 都 被 称 为 复制 品 (replica) ， 所 有 找 贝 的 集合 被 称 
为 复制 数据 库 (replicated database) 。 通 常 ， 复 制品 在 地 理 上 分 开 (也 
许 位 于 相隔 数 百 英里 的 数据 中 心里 ， 因 此 即便 其 中 一 份 复 制品 被 一 
场 目 然 灾难 抹 挥 ， 男 一 份 复制 品 也 还 在 。 


我 曾经 听 到 一 名 计算 机 企业 高 管 这 么 描述 在 2001 年 9 月 11 日 称 怖 分 
子 袭 击 纽约 世贸 中 心 双子 塔 后 该 公司 客户 的 经 历 。 那 家 计算 机 企业 有 
五 个 主要 客户 在 双子 塔 中 ， 所 有 客户 都 运行 着 地 理 上 分 开 的 复制 数据 
库 。 其 中 四 位 客户 能 依靠 剩 下 的 数据 库 拷 贝 基本 不 受 干 扰 地 继续 开展 
业务 。 不 幸 的 是 ， 第 五 位 客户 在 两 座 双 子 塔 中 都 有 一 份 复制 品 ， 但 这 


两 份 都 丢失 了 1! 这 位 客户 只 能 在 从 站 外 档案 备份 中 恢复 数据 库 后 ， 才 
得 以 重新 开展 业务 。 


注意 ， 复 制 数据 库 和 “备份 ”一 些 数据 的 第 见 概 念 有 很 大 不 同 。 备 
份 是 某 个 特定 时 刻 对 一 些 数据 的 快照 一 一 对 于 手动 备份 ， 快 照 在 你 运 
行 备份 程序 时 进行 ， 而 目 动 备份 通常 会 在 每 周 或 每 天 的 某 个 特定 时 刻 
对 系统 进行 快照 ， 比 如 每 天 早晨 2 点 钟 。 换 言 之 ， 一 个 备份 是 一 些 文 
件 、 一 个 数据 库 或 其 他 任何 你 需要 额外 揽 贝 的 东西 的 完全 拷贝 。 


不 过 ， 根 据 定 义 ， 备 份 并 不 一 定 最 新 : 如 果 在 一 次 备份 之 后 做 出 
一 些 变 更 ， 这 些 变 更 不 会 补 保 存在 备份 中 。 相 反 ， 复 制 数据 库 随 时 集 
持 数 据 库 的 所 有 拷贝 同步 。 每 次 数据 库 中 任 一 项 哪怕 出 现 最 细微 的 变 
更 ， 所 有 复制 品 都 必须 立即 做 出 变更 。 


很 明显 ， 复 制 是 抵御 数据 丢失 的 绝 佳 方法 。 但 复制 也 存在 危险 : 
它 引 入 了 为 一 种 可 能 的 不 一 怪 。 如 琳 一 个 复制 品 最 后 的 数据 和 为 一 个 
复制 品 不 同 ， 这 时 我 们 该 怎么 办 ? 这 样 的 复制 品 彼此 不 一 致 ， 很 难 或 
不 可 能 判定 哪个 复制 品 中 是 正确 的 数据 。 在 研究 了 如 何 回 深 事 务 后 ， 
我 们 将 再 返回 讨论 这 一 问题 。 


回 深 事务 


冒 着 重复 的 风险 ， 让 我 们 备 试 回忆 一 下 事务 多 竟 是 什么 : 事务 是 
对 数据 库 的 一 系列 变更 ， 这 些 变更 必须 全 部 执行 以 保证 数据 库 保 持 一 
致 。 在 之 前 对 事务 的 讨论 中 ， 我 们 主要 关注 事务 会 完成 ， 即 便 数据 库 
在 事务 进行 途中 朋 演 。 


但 结 采 证 明 ， 有 时 候 出 于 一 些 原因 不 可 能 完成 一 项 事务 。 比 如 ， 
也 许 事 务 涉及 同 数 据 库 中 添加 大 量 数据 ， 而 计算 机 在 事务 中 途 用 完了 
人 磁盘 空间 。 这 一 情况 非常 罕见 ， 但 却 很 重要 。 


另 一 个 更 前 见 的 未 能 完成 事务 的 原因 和 另 一 个 名 为 锁定 
(locking) 的 数据 库 概 念 有 关 。 在 一 个 繁忙 的 数据 库 中 ， 通 常会 同时 
执行 多 项 事务 。 (想象 一 下 ， 假 如 银行 每 次 只 允许 一 名 用 户 转账 ， 这 
时 会 发 生 什么 情况 一 一 这 种 在 线 银行 系统 的 效能 会 让 人 无 比 震 惊 。) 
在 一 次 事务 进行 中 ， 数 据 库 的 一 些 部 分 会 冻结 ， 这 点 很 重要 。 比 如 ， 
如 琳 事 务 A 同 记录 中 上 传 一 个 罗 西 娜 和 议定 成 为 朋友 的 项 ， 而 同时 事务 
B 从 数据 库 中 删除 了 前 定 ， 这 会 造成 灾难 性 的 后 果 。 因 此 ， 事 务 A 将 “ 馈 
定 "包含 静 宜 信息 的 那 部 分 数据 库 。 这 意味 着 那些 数据 被 冻结 了 ， 其 他 
事务 不 能 改变 它 。 在 大 多 数 数 据 库 中 ， 事 务 能 锁定 单行 或 单列 ， 或 整 
个 条 < 


名 字 ”年龄 ”电子 邮件 


bb 


ES 


死 锁 (deadlock) : 当 两 次 事务 A 和 B 同 时 尝试 锁定 同一 行 一 一 但 方向 相反 一 一 时 ， 它 们 就 会 死 


和 


锁 ， 都 不 能 进行 。 


很 明显 ， 一 次 只 能 有 一 项 事务 锁定 数据 库 的 某 个 部 分 。 一 旦 该 项 
事务 成 功 完 成 ， 束 会 “解锁 ”之 前 被 它 锁 定 的 所 有 数据。 之 后， 其 他 事 
务 束 能 更 改 之 前 被 冻结 的 数据 。 


年 一 看 ， 这 似乎 是 一 个 绝 佳 的 解决 方案 ， 但 这 会 导致 一 个 非常 精 
糕 的 状况 ， 计 算 机 科学 家 称 之 为 死 锁 ， 正如 上 图 所 示 。 让 我 们 假设 两 
项 事务 A 和 B 同 时 运行 。 正 如 上 图 顶部 所 示 ， 最 初 数据 库 中 没有 行 被 锁 
住 。 之 后 ， 正 如 上 图 中 部 所 示 ，A 锁 住 了 包含 玛丽 信息 的 那 一 行 ，B 锁 
住 了 包含 皮 德 罗 信 息 的 那 一 行 。 过 后 不 久 ，A 发 现 需 要 锁 住 皮 人 德 罗 所 在 
的 行 ，B 发 现 需 要 锁 住 玛 丽 所 在 的 行 一 一 这 一 情形 如 上 图 底部 所 示 。 注 
意 ，A 现 在 需要 锁 住 皮 德 罗 所 在 的 行 ， 但 一 次 只 能 有 一 项 事务 锁 住 任意 
了 ,但 B 已 经 锁 住 了 皮 德 罗 所 在 的 行 ! 因此 A 需要 等 到 B 结 束 才 能 锁 
定 。 但 B 只 有 在 锁定 玛丽 所 在 的 行 时 才能 结束 ， 而 玛丽 所 在 的 行 目 前 又 
由 A 锁 定 。 因 此 B 需 要 等 到 A 结 束 才能 锁定 。A 和 B 互 为 死 锁 ， 因 为 每 项 
事务 都 必须 等 待 另 一 项 事务 才能 进行 。 它 们 会 永远 僵持 下 去 ， 这 些 事 


务 永远 不 会 完成 。 


1 


oy 


计算 机 科学 家 已 经 非常 细致 地 研究 了 死 锁 ， 许 多 数据 库 都 会 定期 
运行 侦 测 死 锁 的 特殊 程序 。 当 发 现 一 个 死 锁 时 ， 其 中 一 项 死 锁 的 事务 
会 取消 ， 以 便 让 男 一 项 事务 进行 。 但 请 注意 ， 束 和 在 事务 进行 途中 耗 


尽 磁 盘 空 间 时 所 做 的 一 样 ， 这 要 求 具备 撤销 或 “ 回 滚 ” 已 经 部 分 完成 的 
事务 的 能 力 。 现 在 我 们 至 少 知道 了 两 种 事务 需要 回 深 的 原因 。 还 有 许 
多 其 他 原因 ， 但 我 们 在 此 无 须 深入 。 根 本 点 在 于 ， 事 务 经 负 因 为 不 可 
预料 的 原因 而 不 能 完成 。 


回 深 能 通过 对 每 办 事项 列表 把 戏 稍 作 变 更 来 实现 ， 预 写 日 志 必 须 
包含 足够 的 额外 信息 ， 才 能 在 必要 时 撤销 每 次 操作 。 (这 与 之 前 的 描 
述 相 矛 慎 ， 我 们 在 前 面 强调 每 一 个 日 志 项 要 包含 足够 多 信息 ， 以 便 在 
朋 溃 后 重新 执行 操作 。) 这 在 实践 中 很 容易 达成 。 事 实 上 ， 在 我 们 审 
视 的 简单 例子 中 ， 撤 销 信 息 和 重新 执行 的 信息 都 一样 。 像 “将 扎 迪 的 支 
票 账 户 余 额 从 800 美 元 变 为 600 美 元 ”这 样 的 项 能 轻易 “撤销 ”一 一 只 需 将 
扎 迪 的 支票 账户 余额 从 600 美 元 变 为 800 美 元 。 总 之 : 如 果 一 项 事务 需 
要 回 滚 ， 数 据 库 程 序 只 需 通过 预 写 日 志 〈 比 如 竺 办 事项 列表 ) 逆向 操 
作 ， 逆 转 事 务 中 的 每 项 操作 。 


预备 提交 把 戏 


现在 ， 让 我 们 思考 复制 数据 库 中 回 深 事务 市 来 的 问题 。 这 里 的 问 
古 是 ， 其 中 一 份 复 制品 可 能 会 遇 到 了 要 求 回 深 的 问题 ， 而 其 他 复制 品 
则 没有 这 样 的 问题 。 比 如 ,假设 其 中 一 份 复制 品 耗 尽 了 人 磁 副 空间 ， 而 
其 他 复制 品 仍 有 空间 剩余 。 


一 个 简单 的 类 比 在 这 里 会 很 有 帮助 。 假 设 你 和 三 个 朋友 想 一 起 去 
看 一 部 最 近 上 上 映 的 电影 。 为 了 让 例子 更 有 趣 ， 让 我 们 把 故事 育 景 设 在 
20 世 纪 80 年 代 ， 那 时 还 没有 电子 邮件 ， 因 此 电影 之 行将 通过 电话 组 
织 。 你 会 皇 么 组 织 ? 下 面 列 出 了 一 种 可 能 的 方法 : 确定 一 个 放映 电影 
的 时 间 ， 这 个 时 间 要 适合 你 ， 就 你 所 知 这 个 时 间 极 有 可 能 也 适合 你 朋 
友 。 假 设 你 选择 了 周二 下 午 8 点 。 下 一 步 融 是 打 电 话 给 其 中 一 位 朋友 ， 
询问 他 或 她 在 周二 下 午 8 点 是 否 有 空 。 如 果 有 空 ， 你 会 说 “ 太 好 了 ， 用 
笔记 下 来 ， 我 等 下 再 打 回 来 确认 ”。 然后 你 再 打 电 话 给 下 一 位 朋友 ， 做 
相同 的 事 。 最 后 ， 你 打 电 话 给 第 三 位 以 及 最 后 一 位 朋友 ， 提 出 相同 的 
问题 。 如 采 所 有 人 部 在 周二 晚上 8 点 有 空 ， 你 束 能 做 出 最 终 决 是 ， 人 确认 
这 一 事件 ， 并 打 电 话 给 朋友 ， 让 他 们 知晓 。 


这 是 简单 的 情形 。 假 如 一 位 朋友 在 周二 晚上 8 点 没 空 呢 ? 那样 的 
话 ， 你 需要 “ 回 滚 ”已 经 做 了 的 所 有 工作 ， 重 新 开始 。 在 现实 中 ， 你 可 
E 会 打 电 话 给 每 个 朋友 ， 并 立即 给 出 一 个 新 时 间 ， 但 为 了 让 事情 尽 可 
简单 ， 假 设 你 打 电 话 给 每 位 朋友 并 说 “不 好 意思 ， 周 二 晚上 8 点 不 合 
， 在 你 的 日 程 上 删 挥 它 把 ， 我 会 很 快 打 电 话 告诉 你 新 时 间 ”。 一 旦 做 
这 件 事情 ， 你 束 能 重新 开始 整个 流程 。 
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注意 ， 在 你 安排 电影 出 行 的 策略 中 有 两 个 截然 不 同 的 阶段 。 在 第 
一 阶段 ， 你 提出 了 日 期 和 时 间 ， 但 并 非 百 分 之 百 地 确定 。 一 旦 你 发 现 
提议 适用 所 有 人 ， 你 才能 百分之百 地 确定 日 期 和 时 间 ， 但 其 他 人 不 知 


道 。 因 此 ， 你 在 第 二 阶段 给 所 有 朋友 打 电 话 回去 确认 。 相 反 ， 如 采 一 
个 或 更 多 朋友 不 能 成 行 ， 第 二 阶段 束 包 括 给 所 有 人 打 电 话 取 消 。 计 算 
机 科学 家 们 将 之 称 为 两 阶段 提交 协议 ， 我 们 称 之 为 “预备 提交 把 戏 ”。 
第 一 阶段 被 称 为 “预备 ?阶段 。 第 二 阶段 要 么 是 “提交 ?阶段 ， 要 么 是 “ 撤 
销 ” 阶 段 ， 取 决 于 最 初 提议 是 否 被 所 有 人 接受 。 


有 趣 的 是 ， 这 一 类 比 中 有 个 数据 库 锁 定 的 想法 。 尽 管 我 们 并 未 详 
尽 讨论 它 ， 你 所 有 的 朋友 在 写 下 电影 出 行 时 都 做 了 一 个 不 详尽 的 承 
诡 : 他 们 承诺 不 会 在 周二 晚 8 点 安排 其 他 事 。 直 到 他 们 收 到 确认 或 取消 
的 回信 为 止 , 日 程 表 上 的 那个 时 间 段 部 古 “锁定 ”的 ， 不 能 被 其 他 事 
务 “ 更 改 *。 比 如 ， 如 果 其 他 人 打 电 话 给 你 朋友 ， 时 间 恰 好 是 第 一 通电 
话 和 第 二 通电 话 之 间 ， 提 议 在 周二 晚 8 点 观看 一 场 篮球 赛 呢 ? 你 朋友 应 
该 会 说 ,“ 对 不 起 ， 但 我 可 能 在 那个 时 间 有 男 一 场 约会 。 在 那 场 约会 融 
定 前 ， 我 不 能 给 你 确信 是 否 去 看 这 场 篮 球赛 。” 


现在 ， 让 我 们 审视 一 下 预备 提交 把 戏 如 何在 复制 数据 库 中 起 作 
用 。 下 图 展示 了 这 一 想法 。 一 般 来 说 ， 其 中 一 个 复制 品 是 协同 事务 
的 “主管 ” (master) 。 更 确切 点 讲 ,假设 有 三 个 复制 品 A、B 和 C，A 是 
主管 。 假 设 数 据 库 需要 执行 一 项 向 表 中 插入 一 行 新 数据 的 事务 。 预 备 
阶段 从 A 锁 定 表 开始 ， 接 下 来 A 将 新 数据 写 入 其 预 写 日 志 。 同 时 ，A 将 
新 数据 发 给 B 和 C。B 和 C 也 都 会 锁定 各 自 的 表 找 贝 ， 并 在 日 志 中 写 入 新 
数据 。 然 后 B 和 C 向 A 返回 报告 它们 是 否 成 功 地 做 了 这 一 事务 。 接 下 来 


第 二 阶段 开始 ， 如 果 A、B 或 C 中 任 一 项 事务 遇 到 了 一 个 问题 (比如 耗 
尽 人 磁盘 空间 或 未 能 锁定 表 ) ， 主 管 A 就 知道 事务 必须 回 深 ， 并 通知 所 有 
制品 这 一 点 。 但 如 琳 所 有 复制 品 部 在 预备 阶段 报告 成 功 ，A 会 同 每 份 
制品 发 送 消息 确认 事务 ， 复 制品 接 下 来 会 完成 事务 (如 下 图 所 
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带 回 深 操 作 的 预备 提交 把 戏 ， 本 图 顶部 和 上 一 张 图 顶部 一 样 。 但 在 预备 阶段 ， 其 中 一 个 复制 品 


出 错 。 结 果 ， 本 疼 放 部 是 “撤销 ”阶段 ， 其 中 每 个 复制 品 都 必须 回 滚 事 务 。 


到 目前 为 止 ， 我 们 的 处 理 方式 中 有 两 种 数据 库 把 戏 : 竺 办 事项 列 
表 把 戏 和 预备 提交 把 戏 。 它 们 对 我 们 有 什么 用 ? 通过 综合 这 两 个 把 
戏 ， 银 行 一 一 以 及 其 他 任何 在 线 实体 一 一 都 能 使 用 原 于 仿 事 务 布置 复 
制 数据 库 。 而 这 能 在 同时 为 成 和 十 上 万 的 客户 提供 高 效 服 务 ， 且 基本 上 
不 会 出 现 不 一 致 或 数据 丢失 。 不 过 ， 我 们 还 未 深入 数据 库 的 核心 ， 数 
据 如 何 构建 ， 查 询 如 何 得 到 回答 ? 最 后 一 个 数据 库 把 戏 会 为 这 些 问 题 


提供 一 些 答案 。 


天 系数 据 库 和 虚 表 把 戏 


在 前 面 的 所 有 例子 中 ， 数 据 库 都 只 由 一 张 表 组 成 。 但 现代 数据 表 
技术 的 真正 威力 在 有 多 张 表 的 数据 库 中 才 释 放出 来 。 关 系数 据 库 的 基 
本 思想 是 ， 每 张 表 都 存储 不 同 的 信息 集 ， 但 不 同 表 中 的 个 体 通 第 都 以 
某 种 方式 相连 。 因 此 ， 一 个 公司 的 数据 库 也 许 是 由 不 同 的 表 组 成 ， 

些 表 包 括 客户 信息 、 供 应 商 信 息 和 产品 信息 。 但 客户 表 可 能 会 所 及 产 
品 表 的 东西 ， 因 为 客户 会 订购 产品 。 也 许 产 品 表 会 提 及 供应 商 表 中 的 
东西 ， 因 为 产品 由 供应 商 的 商品 制造 


让 我 们 来 看 一 个 真实 的 小 例子 : 由 大 学 存储 的 信息 详细 列 出 了 学 
生 要 上 哪些 谍 程 。 为 便于 管理 ， 例 子 中 只 会 有 儿 位 学 生 和 几 门 课程 ， 
但 而 望 你 能 明白 ， 同 一 原理 也 适用 于 大 得 多 的 数据 量 。 


首先 ， 让 我 们 看 看 数据 会 如 何 使 用 简单 的 一 张 玫 方式 进行 存储 ， 
我 们 在 本 章 前 面部 分 一 直 使 用 这 一 方法 。 整 个 过 程 在 下 面 的 顶 图 中 显 
示 。 你 可 以 看 到 ,数据库 中 有 10 行 和 5 列 ; 衡量 这 个 数据 库 信息 量 的 一 
个 简单 方法 是 说 ， 数 据 库 中 有 10x5 = 50 个 数据 项 。 花 几 秒 钟 更 细致 地 
研究 下 面 的 表 。 有 什么 东西 让 你 对 信息 存储 的 方式 感到 恶心 吗 ? 比 
如 ， 你 能 看 到 任何 不 必要 的 数据 重复 吗 ? 你 能 想到 存储 相同 信息 更 有 
效 的 方式 吗 ? 


你 可 能 意识 到 ， 有 关 每 门 课程 的 大 量 信息 都 复制 给 了 参加 该 
门 课程 的 所 有 学 生 。 比 如 ， 三 名 学 生 参 加 ARCH101 课 程 ， 而 关于 这 门 
课程 的 细节 信息 (包括 课程 名 、 讲 师 和 房间 号 ) 都 向 每 位 学 生 重 复 


了 。 人 存储 这 些 信息 更 高 效 的 方法 是 使 用 两 张 表 : 一 张 表 存 储 学 生 们 上 
哪些 诗 ， 另 一 张 表 存 储 与 每 门 读 程 有 关 的 细 世 。 这 种 双 表 党 略 在 下 面 
的 属 图 昌 是 二” 
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顶 图 :学生 课 程 的 单 表 数据 库 


底 图 : 用 两 张 表 更 高 效 地 存储 了 相同 数据 


我 们 马上 能 看 到 这 种 多 表 方 法 的 好 处 之 一 : 要 求 的 存储 总 量 减 少 
了 。 新 方法 使 用 了 一 个 10 行 2 列 的 表 (10x2 = 20 个 项 ) 和 一 个 3 行 4 列 的 
表 (3x4 = 12 个 项 ) ， 总 共 是 32 个 项 。 相 反 ， 一 表 方 法 需要 50 个 项 才能 
存储 相同 多 的 信息 。 


节省 是 如 何 实现 的 呢 ? 它 来 自 于 对 重复 信息 的 消除 ， 和 重复 每 位 
学 生 选 取 的 每 门 课程 的 名 称 、 讲 师 和 房间 号 不 同 ， 这 些 信息 只 向 每 站 
课程 列 出 了 一 次 。 尽 管 我 们 牺牲 了 一 些 东 西 来 实现 这 一 点 ; 现在 课程 
号 出 现在 两 个 地 方 ， 两 张 表 中 都 有 一 个 “课程 号 " 列 。 我 们 用 大 量 重复 
(课程 细节 ) 和 少量 重复 (课程 号 ) 进行 了 交换 。 总 体 而 言 ， 这 是 笔 


好 交易 。 这 个 小 例子 中 的 收获 并 不 大 ， 但 你 也 许 想 象 得 出 ， 如 果 有 成 
百 上 千 的 学 生 参 加 同一 门 读 ， 通 过 这 一 方法 将 节省 巨大 的 存储 空间 。 


多 表 方 法 还 有 另 一 个 巨大 优势 。 如 采 表 设计 无 误 ， 对 数据 库 的 变 
更 会 更 容易 。 比 如 ， 假 设 课 程 MATH314 的 房间 号 从 560 变 为 440。 在 一 
表 方 法 中 ， 有 四 个 单独 的 行 需要 更 新 。 而 且 ， 正 如 我 们 之 前 讨论 的 ， 
这 四 次 更 新 需要 包含 在 一 次 事务 中 ， 以 确保 数据 库 保 持 一 致 。 但 在 多 
表 方 法 中 ， 更 新 课程 细节 表 中 一 项 即 可 。 


刍 


在 这 里 有 一 上 操 值 得 指出 ， 这 个 简单 的 学 生 课 程 例子 使 用 两 个 表 来 
代表 最 高 效 ， 真 实 的 数据 库 通 常会 和 许多 表 协 同 。 很 容易 想象 用 新 表 
扩展 学 生 课程 的 例子 。 比 如 ， 可 能 有 一 张 包 含 每 位 学 生 细 节 的 表 ， 如 
学 生 号 、 电 话 号 以 及 家 许 住 址 。 可 能 还 有 一 张 讲师 表 ， 列 出 讲师 的 电 
子 邮 箱 地 址 、 办 公 地 点 和 办 公 时 间 。 每 个 表 都 被 设计 用 其 大 多 数列 存 
储 数 据 ， 以 便 让 这 些 数 据 不 在 其 他 地 方 出 现 一 一 这 种 方法 的 思想 是 
不 管 何 时 要 求 某 个 特定 物体 的 细节 ， 我 们 都 能 在 相关 表 中 “查询 ”这 些 


细 广 。 


在 数据 库 术 语 中 ， 表 中 用 于 “查询 ”细节 的 列 被 称 为 “ 键 ”。 比 如 ， 想 
象 一 下 如 何 寻 找 路 易 吉 的 历史 课 房 间 号 。 通 过 使 用 上 一 节 所 壕 的 单 表 


方法 ， 我 们 只 需 扫 描 表 中 的 行 ， 直 到 找到 路 易 吉 的 历史 课 ， 然 后 查询 
房间 号 列 ， 得 到 结果 851。 但 在 多 表 方 法 中 ， 我 们 最 开始 扫描 第 一 个 
表 ， 以 发 现 路 易 吉 的 历史 课 课 程 号 一 一 也 就 是 “HIST256”。 然后 我 们 
将 “HIST256” 作 为 其 他 表 的 键 使 用 :通过 寻找 包含 课程 号 “HIST256” 的 
行 ， 查 询 这 门 课程 的 细节 ， 然 后 在 该 行 中 寻找 房间 号 ( 即 851) 。 这 一 
过 程 在 下 图 中 显示 。 
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j 键 查找 数据 ; 为 找到 路 易 吉 历史 课 的 房间 号 ， 我 们 首先 要 找到 左 表 中 的 相关 课程 豆 。 然 后 这 


个 值 "HIST256" 会 被 用 作 另 一 张 表 的 键 。 因 为 课程 号 栏 以 字母 表 顺 序 排序 ， 我 们 能 很 


Le 


天 找到 正 


EN 


的 行 ， 然 后 获取 对 应 的 房间 号 (851) 。 


像 这 样 使 用 键 的 美妙 之 处 在 于 ， 数 据 库 能 以 超 高 效率 查询 键 。 这 
和 人 在 字典 中 查询 一 个 单词 类 似 。 想 想 你 会 如 何在 纸 质 词典 中 查 
找 “epistemology”( 认 识 论 ) 这 个 单词 。 自 然 地 ， 你 不 会 从 第 一 页 
始 ， 扫 描 每 个 项 以 查找 “epistemology”。 相 反 ， 你 很 快 束 能 通过 查看 页 
首 来 缩小 范围 ， 你 最 开始 会 大 块 翻 页 ， 然 后 会 慢 慢 放 慢 翻 页 的 幅度 ， 

逐渐 靠近 你 的 目标 。 数 据 库 使 用 同样 的 技术 查找 键 ， 但 它们 要 比 人 高 
效 得 多 。 这 是 因为 数据 库 能 提前 计算 出 需要 翻 多 少 “ 块 ?页 ， 并 能 记录 
每 块 开 始 和 结束 的 页 首 。 计 算 机 科学 中 有 一 种 用 于 快 键 查找 的 预计 算 
块 集合 被 称 为 B 树 〈B-tee) 。B 树 是 另 一 种 支持 现代 数据 库 的 关键 精巧 


思想 ， 但 不 竺 的 是 ， 对 B 树 进行 细致 讨论 会 离 题 太 远 。 


J 


虚 表 把 戏 


我 们 准备 好 去 领会 多 表 数 据 库 背 后 精巧 的 主要 思想 了 。 虚 表 的 基 
础 思想 很 简单 : 尽管 所 有 的 数据 库 信息 都 能 存储 在 一 个 固定 大 小 的 表 
中 ， 数 据 库 能 在 需要 时 生成 新 的 临时 表 。 我 们 称 这 些 表 为 “ 虚 表 ”， 以 
强调 它们 不 会 被 存储 到 任何 地 方 的 事实 一 一 当 数 据 库 在 回答 对 数据 库 
的 查询 并 且 需 要 虚 表 时 就 会 创建 它们 ， 并 立即 删除 它们 。 


掌 个 向 单 例 于 来 说 明 庶 圾 把 戏 。 假设 我 们 从 前 文 抵 图 持 述 的 数据 
库 开 始 ， 一 名 用 户 输入 一 个 查询 ， 询 问 所 有 上 科比 教授 课 的 学 生 名 
字 。 数 据 库 处 理 这 一 查询 的 方法 有 许多 种 ;我 们 会 审视 其 中 一 种 方 


法 。 第 一 步 是 创建 一 张 新 虚 表 ， 列 出 所 有 课程 的 学 生 和 讲师 。 这 可 以 
Re 


通过 合并 (join) 一 种 特殊 的 数据 库 操 作 一 一 两 个 数据 库 来 完成 。 
合并 的 基本 思想 羡 将 一 个 表 中 的 每 一 行 和 另 一 张 表 对 应 行 结合 起 来 ， 


对 应 是 通过 同时 出 现在 两 张 表 中 的 键 栏 建立 起 来 的 。 比 如 ， 当 我 们 合 
并 第 前 文 底 图 两 张 表 时 ， 会 使 用 “课程 号 ”作为 键 ， 结 果 就 是 一 张 如 前 
文 顶 图 一 样 的 虚 表 一 一 每 个 学 生 痢 和 第 二 张 表 中 相关 谍 程 的 所 有 细 市 
相 结合 ， 人 们 可 以 使 用 "课程 号 ?作为 键 得 找 这 些 细 世 。 当 然 ， 原 始 碍 
询 和 学 生 们 及 讲师 有 关 ， 因 此 我 们 不 需要 其 他 栏 。 和 对 和 运 的 是 ， 数 据 库 
包含 一 个 抛射 (projection) 操作 ， 能 让 我 们 抛弃 不 感 兴趣 的 栏 。 因 此 
在 将 两 张 表 结合 的 合并 操作 后 ， 会 有 抛 冉 操作 移 除 一 些 不 必要 的 栏 ， 
最 终 数 据 库 得 到 了 下 面 的 虚 表 : 


站 县 
路 易 吉 “| 史密斯 教授 
落 县 


比尔 史密斯 教授 


接 下 来 ， 数 据 库 会 使 用 另 一 种 名 为 选取 (select) 的 重要 操作 。 
取 操 作 会 基于 一 些 标准 ， 从 一 张 表 中 选取 一 些 行 ， 并 抛弃 其 余 的 行 ， 
生成 一 张 新 虚 表 。 在 这 个 例子 中 ， 我 们 在 寻找 上 科比 教授 课 的 学 生 ， 
因此 我 们 要 进行 一 次 “选取 ”操作 ， 只 选择 讲师 为 “科比 教授 ”的 行 ， 得 到 
的 虚 表 如 下 : 


查询 快 完成 了 。 现 在 我 们 需要 的 有 是 男 一 次 抛射 操作 ， 抛 弃 “ 讲 
师 ” 栏 ， 余 下 一 张 回答 原始 查询 的 虚 表 : 


罗斯 科比 教授 


罗斯 布莱克 教授 


接 下 来 ， 数 据 库 会 使 用 另 一 种 名 为 选取 (select) 的 重要 操作 。 选 
取 操 作 会 基于 一 些 标准 ， 从 一 张 表 中 选取 一 些 行 ， 并 抛弃 其 余 的 行 ， 
生成 一 张 新 虚 表 。 在 这 个 例子 中 ， 我 们 在 寻找 上 科比 教授 课 的 学 生 ， 
因此 我 们 要 进行 一 次 “选取 ”操作 ， 只 选择 讲师 为 “科比 教授 ”的 行 ， 得 到 
的 虚 表 如 下 : 


查询 快 完成 了 。 现 在 我 们 需要 的 有 是 为 一 次 抛射 操作 ， 抛 弃 “ 讲 
师 ” 栏 ， 余 下 一 张 回答 原始 查询 的 虚 表 : 


罗斯 


我 认为 值得 在 此 添加 一 个 略 显 技术 性 的 提示 。 如 琳 你 恰巧 对 数据 
库 查询 语言 SQL 很 熟悉 ， 你 也 许 会 觉得 上 面 对 “ 选 取 ” 操 作 的 定义 相当 奇 
怪 ， 因 为 SQL 中 的 “选取 ”命令 功能 比 只 选取 一 些 行 大 得 多 。 这 一 术语 来 
目 于 一 种 数据 库 操作 数学 理论 ， 也 就 是 知名 的 关系 代数 (relational 
algebra) ,其 中 的 “选取 ” 仅 用 于 选取 行 。 关 系 代 数 还 包含 “合并 ”和 “ 抛 
射 ?操作 ， 这 两 项 操作 在 寻找 科比 教授 学 生 的 查询 中 用 到 过 。 


天 系数 据 库 


一 个 将 其 所 有 数据 都 存储 在 我 们 之 前 用 过 的 互联 表 中 的 数据 库 被 
称 为 关系 数据 库 。 关 系数 据 库 由 IBM 研 究 员 埃 德 加 . 科 德 〈E. F. Codd) 
在 其 于 1970 年 发 表 的 极 具 影 响 力 的 论文 《大 型 共享 数据 库 数据 的 关系 
模型 》 (A Relational Model of Data for Large Shared Data Banks) 中 提 
出 。 和 科学 上 许多 伟大 思想 一 样 ， 回 过 头 看 关系 数据 库 似乎 很 简单 
一 一 但 在 那 时 ， 它 们 代表 了 在 高 效 存 储 和 处 理 信息 上 的 巨大 飞跃 。 结 
果 显 示 ， 只 需 几 种 操作 (如 我 们 之 前 见 过 的 关系 代数 操作 “选取 ”、“ 合 
并 ”以 及 “抛射 ”") 就 足够 生成 虚 表 ， 回 应 几乎 所 有 对 关系 数据 库 的 查 
询 。 因 此 ， 关 系数 据 库 能 将 数据 存储 在 为 高 效 性 而 构建 的 表 中 ， 使 用 
虚 表 把 戏 回应 似乎 需要 在 不 同 表 中 数据 的 查询 。 


这 也 征 关 系数 据 库 被 用 于 文 持 大 多 数 电子 商务 活动 的 原因 。 当 你 
网 上 购物 时 ， 你 很 有 可 能 束 和 一 系列 关系 数据 库 表 进行 了 互动 ， 这 些 
表 和 存储 了 与 产品 、 客 尸 和 单 次 购买 相关 的 信息 。 在 网 络 空 间 中 ， 我 们 
无 时 无 刻 不 被 关系 数据 库 所 包围 ， 很 多 时 候 甚至 没有 意识 到 它们 的 存 


数据 库 的 人 性 面 


对 于 一 般 的 旁观 者 而 言 ， 数 据 库 也 许 是 本 书 中 最 不 令 人 激动 的 主 
题 。 要 为 数据 存储 感到 激动 很 难 。 但 在 背后 ， 让 数据 库 奏 效 的 精巧 思 
想 却 是 另 一 回 事 。 建 立 在 能 在 任何 操作 中 途 出 错 的 硬件 上 ， 数 据 库 给 
予 我 们 期 望 在 线 银行 及 类 似 活 动能 拥有 的 高 效 性 和 坚实 可 靠 性 。 竺 办 
事项 列表 把 戏 给 了 我 们 原子 态 事 务 ， 即 便 成 千 上 万 的 客户 同时 和 一 个 
数据 库 互 动 也 能 保持 一 致 性 。 这 种 并 发 性 的 深厚 程度 ， 与 虚 表 把 戏 提 
供 的 快速 查询 响应 能 力 一 道 ， 让 大 型 数据 库 高 效 化 。 待 办 事项 列表 把 
戏 还 保证 了 面临 出 错时 的 一 致 性 。 当 与 用 于 复制 数据 库 的 预备 提交 把 
戏 结合 时 ， 我 们 束 获 得 了 牢靠 的 一 致 性 以 及 数据 的 持久 性 。 


数据 库 对 不 可 靠 组 件 的 英勇 胜利 一 一 计算 机 科学 家 称 之 为 “ 容 
征 许 多 研究 人 员 在 过 去 几 十 年 间 的 成 采 。 但 
其 中 最 重要 的 贡献 者 是 吉姆 :格雷 (Jim Gray) 。 格 雷 是 位 超级 计算 机 
科学 家 ， 撰 写 了 有 关 事 务 处 理 的 数据 。[ 这 本 书 名 为 《事务 处 理 : 概 


错 ” (fault-tolerance) 


念 与 技术 》 (Tansaction Processing: Concepts and 
Techniques) ， 该 书 于 1992 年 首次 出 版 。] 令 人 遗憾 的 是 ， 他 的 职 
业 生 涯 很 早 就 结束 了 : 2007 年 的 一 天 ， 他 驾驶 自己 的 游艇 由 金门 大 桥 
出 旧金山 湾 ， 进 行 一 次 计划 好 的 白 朋 旅行 ， 准 备 前 往 旧 金山 湾 附 近 公 
海中 的 一 些 岛屿 。 自 此 以 后 ， 格 雷 和 他 的 船 音信 全 无 。 这 个 悲剧 故事 
中 有 一 处 温暖 人 心 的 转折 ， 格 雷 在 数据 库 社 区 的 许多 朋友 使 用 格雷 的 

具 党 试 拯救 格雷 : 旧金山 附近 海域 最 新 得 到 的 卫星 照片 被 上 传 到 一 
个 数据 库 中 ， 以 便 让 朋友 们 和 同事 们 搜寻 这 位 失踪 数据 库 先 锋 的 线 
索 。 不 幸 的 是 ， 这 次 搜寻 并 不 成 功 ， 计 算 机 科学 世界 丧失 了 一 位 领军 
人 物 。 


第 九 章 


一 这 个 软件 究竟 由 谁 编写 


为 了 证 明 你 错 得 多 厉害 ， 你 的 假设 是 多 么 没有 根据 ， 我 把 证 书 摆 在 你 面前 .……… 看 看 它 ! 你 可 


以 拿 在 手 里 看 ， 它 绝 非 伪造 。 


查尔斯 -狄更斯 ，《 双 城 记 》 


在 本 书 的 所 有 思想 中 ， 最 矛盾 的 也 许 要 数 “ 数 字 签名 ” (digital 
signature) 概念 了 。 从 字面 来 看 ， 单 词 数 字 化 (digital) 数字 化 意味 着 
其 “由 数字 字符 串 组 成 ”。 因 此 ， 根 据 定 义 ， 任 何 数字 化 的 东西 都 能 被 
找 贝 ， 要 做 到 这 一 点 ， 只 要 每 次 揽 贝 一 下 数字 殉 行 。 如 有 果 你 能 读 取 数 
字 ， 就 能 拷贝 数字 ! 另 一 方面 , “签名 ”的 全 部 意义 在 于 能 被 读 取 ， 但 
不 能 被 除 作者 外 的 任何 人 找 贝 (也 就 是 伪造 ) 。 怎 么 才 有 可 能 创造 一 
个 数字 化 的 ， 但 又 不 能 被 找 贝 的 签名 呢 ? 我 们 将 在 本 章 为 这 一 有 趣 的 
悖 论 发 现 解 决 方案 。 


数字 签名 真正 的 用 途 有 哪些 ? 


数字 签名 的 用 途 有 哪些 ? 问 这 个 问题 也 许 显 得 多 余 。 你 也 许 会 想 ， 我 
们 能 在 纸 质 签名 用 到 的 地 方 使 用 数字 签名 : 签署 文 票 或 其 他 法 律 文 
件 ， 如 出 租 一 间 公 寓 。 但 如 果 你 思考 一 阵子 ， 你 会 意识 到 这 不 对 。 当 
你 进行 在 线 文 付 时 ， 不 管 是 用 信用 卡 还 是 通过 在 线 银 行 系统 ， 你 会 捉 
供 任 何 种 类 的 签名 吗 ? 没有 。 基 本 上 ， 在 线 信 用 卡 文 付 并 不 要 求 等 
名 。 在 线 银行 系统 略 有 不 同 ， 因 为 它们 会 要 求 你 用 密码 登录 ， 以 帮助 
验证 你 的 身份 。 但 如 果 你 稍 后 于 在 线 银行 对 话 期 间 进行 支付 ， 也 不 需 
要 你 提供 任何 种 类 的 签名 。 


While fles from the jntemet can be useful, this fie type can potentally harm 
your computer, Only run software from publishers you trust Whats the risk? 


The publisher could not be verified，Are you sure you want to run 
software? 


Name: setup.exe 
Publisher: Unknown Publisher 


This file does not have a valid digital signature that verifies ts publisher. You 
should only run software from publishers you trust. How can 1 decide what 


ee 


, 


计算 机 会 自动 检查 数字 签名 。 


图 : 当 我 试图 下 载 并 运行 一 个 拥有 有 效 数字 签名 的 程序 时 ， 网 络 浏览 器 显示 的 消息 。 


洁 


底 图 : 当 数 字 签 名 失效 或 缺失 时 ， 网 络 浏览 器 显示 的 消息 。 


那么 ， 数 字 签 名 在 实际 生活 中 有 哪些 用 途 呢 ? 答案 可 能 和 你 一 开 
始 的 想法 相反 : 与 你 签署 发 送 给 其 他 人 的 材料 不 同 ， 基 本 上 是 其 他 人 
先 签署 材料 再 发 送 给 你 。 你 很 有 可 能 并 未 意识 到 这 一 点 的 原因 是 ， 数 
字 签 名 由 计算 机 自动 验证 。 比 如 ， 不 管 你 何 时 想 下 载 并 运行 程序 ， 网 
络 浏览 器 都 会 检查 程序 是 否 有 数字 签名 以 及 数字 签名 是 否 有 效 。 然 
浏览 角 再 显示 一 个 合适 的 警告 ， 如 上 图 所 示 。 


i 


如 你 所 见 ， 这 里 有 两 种 可 能 性 。 如 果 软 件 拥有 有 效 签 名 (如 上 页 
顶 图 ) ， 计 算 机 能 完全 肯定 地 告诉 你 编写 该 软件 的 公司 名 。 当 然 ， 这 
并 不 能 保证 软件 安全 ， 但 至 少 你 能 基于 对 该 公司 的 信任 程度 做 出 充分 
了 解 后 再 做 决定 。 反 之 ， 如 果 签 名 失效 或 缺失 (如 上 页 底 图 ) ， 你 绝 
不 会 得 到 软件 来 目 哪里 的 保证 。 即 便 你 认为 目 己 下 载 的 软件 来 目 一 个 
信誉 良好 的 公司 ， 也 有 可 能 黑客 用 一 些 恶 意 软 件 奉 换 了 真正 的 软件 。 
软件 也 有 可 能 由 业余 人 士 编 写 ， 他 们 没有 时 间或 动力 去 创造 一 个 有 效 
的 数字 签名 。 在 这 些 情况 下 ， 征 否 安装 取决 于 用 户 是 否 信任 软件 。 


尽管 软件 签名 是 数 子 签名 最 明显 的 应 用 ， 但 这 绝 不 是 仅 有 的 一 种 
应 用 。 事 实 上 ， 计 算 机 接收 和 验证 数字 签名 的 频率 非常 多 ， 因 为 一 些 
经 稼 使 用 的 互联 网 协议 也 使 用 数字 签名 ， 验 证 与 你 进行 交互 的 计算 机 
的 身份 。 比 如 ， 网 络 地 址 以 “https” 开 头 的 安全 服务 器 在 建立 一 个 安全 对 
话 前 ， 通 常会 问 你 的 计算 机 发 送 一 个 数字 签名 证 书 。 数 字 签名 还 应 用 
于 验证 许多 软件 组 件 的 真实 性 ， 比 如 浏览 右 插 件 。 你 在 浏览 网 页 时 很 
有 可 能 已 经 见 过 这 样 的 警告 消 轧 。 


你 也 可 能 过 到 另外 一 种 网 络 签名: 一 些 网 站 会 要 求 输入 名 字 ， 作 
为 网 络 表 格 的 釜 名 。 比 如 ， 当 我 发 送 为 学 生 写 的 推荐 信 时 ， 有 时 我 必 
须 这 人 么 做 。 这 并 不 是 计算 机 科学 家 所 指 的 数字 签名 ! 很 显然 ， 伪 造 这 
种 输入 的 签名 毫 不 费力 ， 任 何 知道 你 名 字 的 人 都 能 伪造 。 在 本 章 ， 我 
们 将 学 习 如 何 创造 一 个 不 能 被 伪造 的 数字 签名 。 


纸 质 签名 


我 们 对 数字 签名 的 解释 会 一 步 步 实 现 ， 先 从 纸 质 签名 的 熟悉 场景 
开始 ， 再 慢 慢 转向 精巧 的 数字 签名 。 下 面 正式 开始 ， 让 我 们 回 到 一 个 
没有 计算 机 的 世界 。 在 那个 世界 里 ， 唯 一 确认 文件 可 徘 的 方式 忠 是 纸 
质 手 写 签名 。 注 意 ， 在 这 种 场景 下 ， 一 份 已 经 签署 的 文件 不 能 单独 验 
证 。 比 如 ， 假 设 你 找到 的 一 张 纸 上 写 着 “我 承 诡 向 弗 朗 索 瓦 丝 文 付 100 
美元 。 签 名 ，Ravi 一 一 如 下 图 所 示 。 你 如 何 才能 验证 拉 维 (Ravi) 真 
的 签署 了 这 份 文件 呢 ? 管 案 是 你 需要 一 些 受信 签名 库 ， 你 可 以 在 这 个 
签名 库 中 核实 拉 维 签名 的 真实 性 。 在 现实 世界 中 ， 银 行 、 政 府 等 机 构 
会 扮演 这 一 角色 一 一 它们 的 确 会 保留 存储 有 客户 签名 的 文件 ， 这 些 文 
件 在 必要 时 可 进行 物理 核实 。 在 我 们 的 假想 场景 中 ， 让 我 们 假设 有 一 
个 名 为 “ 纸 质 签名 银行 ” (paper signature bank) 的 受信 机 构 保 留 每 个 人 
的 签名 文件 。 下 图 就 是 一 个 纸 质 签名 银行 的 概要 图 例 。 


一 个 用 文件 存储 其 客户 身份 及 手写 签名 的 银行 。 


Paper 
Signature Bank 


Ravi 本 
Takeshi “Tak eshl 


Francoise NaNcotses 


一 份 带 有 一 个 手写 签名 的 纸 质 文件 。 


要 验证 拉 维 在 承诺 文 付 弗 朗 索 瓦 丝 的 文件 上 的 签名 ， 我 们 只 需 前 
往 纸 质 答 名 银行 ， 要 求 得 看 拉 维 的 签名 即 可 。 很 显然 ， 我 们 在 这 里 做 
出 了 两 个 重要 假设 。 首 先 ， 我们 假设 能 信任 这 家 银行 。 理 论 上 ， 该 银 
行 的 员工 可 能 将 拉 维 的 釜 名 换 成 假冒 者 的 签名， 但 我 们 在 这 里 要 忽略 
这 种 可 能 性 。 其 次 ， 我 们 假设 假冒 着 不 可 能 伪造 拉 维 的 签名 。 每 个 人 
都 知道 ， 这 一 假设 错 得 离谱 : 熟练 的 造假 者 能 轻易 伪造 签名 ， 即 便 是 
业余 人 士 ， 也 能 制作 合理 的 相似 签名 。 不 管 怎 样 ， 我 们 需要 签名 不 可 
仿造 这 一 假设 一 一 没有 它 ， 纸 质 签名 就 会 暑 无 用 处 。 我 们 将 在 后 面 知 


道 ， 为 何 数字 签名 基本 上 不 可 能 伪造 。 这 也 是 数字 签名 对 纸 质 釜 名 的 
一 大 优势 。 


用 挂 锁 等 名 


我 们 迈 向 数字 签名 的 第 一 步 是 完全 抛弃 纸 质 签名 ， 采 用 一 种 依赖 
挂 锁 、 钥 是 和 已 锁 箱 子 的 新 方法 验证 文件 。 新 机 制 的 每 位 参与 者 (在 
这 个 例子 中 就 是 拉 维 <Ravi>、 勇 <Takeshi> 和 弗 朗 索 瓦 丝 <Francoise>) 
都 有 大 量 挂 锁 供应 。 每 位 参与 者 拥有 的 挂 锁 都 一 样 ， 因 此 拉 维 的 挂 锁 
都 一 样 ， 这 点 很 关键 。 另 外 ， 每 位 参与 者 的 挂 锁 都 必须 是 独 有 的 : 其 
他 人 不 能 制作 或 获得 拉 维 的 挂 锁 。 最 后 ， 本 章 所 有 挂 锁 都 具有 一 个 相 
当 不 同 寻 常 的 特性 : 它们 装备 有 生物 传感器 ， 以 确保 只 有 它们 的 所 有 
者 能 上 锁 。 如 果 弗 明 索 瓦 丝 发 现 有 一 把 拉 维 的 挂 锁 没 锁 上 ， 她 不 能 
拉 维 的 挂 锁 去 锁 任何 东西 。 当 然 ， 拉 维 还 会 得 到 打开 自己 挂 锁 的 钥 
证 。 因 为 拉 维 所 有 的 挂 锁 都 一 样 ， 所 有 钥匙 也 都 一 样 。 到 目前 为 止 描 
述 的 场景 显示 在 下 页 图 中 。 我 们 将 这 一 最 初 设 置 称 为 “实体 挂 锁 把 
戏 ”(physical padlock trick) 。 


现在 ， 让 我 们 和 之 前 一 样 假设 ， 拉 维 灾 弗 朗 索 瓦 丝 100 美 元 ， 而 弗 
朗 索 瓦 丝 想 用 一 种 可 验证 的 方法 记录 这 一 信息 。 换 言 之 ， 弗 明 索 瓦 丝 
想 要 和 上 疼 一 样 的 文件 ， 却 又 不 必 依赖 于 手写 笔迹 。 下 面 天 是 这 一 把 
戏 的 运作 方式 。 拉 维 制作 一 份 文件 ， 上 面 显 示 “ 拉 维 承 诺 问 弗 表 索 瓦 丝 


文 付 100 美 元 ”， 但 并 不 用 在 上 面 签名 。 拉 维 会 制作 一 份 该 文件 的 找 
贝 ， 并 将 文件 放 在 一 个 加 锁 的 箱子 内 (加 锁 的 箱子 非常 坚固 ， 能 用 挂 
锁 锁 上 ) 。 最 后 ， 拉 维 用 一 个 挂 锁 锁 上 箱子 ， 并 把 锁 上 的 箱子 给 弗 朗 
索 瓦 丝 。 完 整 包 圳 如 下 图 所 示 。 准确 地 说 ， 上 锁 的 箱子 就 是 文件 的 签 
名 。 注 意 ， 这 对 弗 衣 索 瓦 丝 或 一 些 受信 目击 者 来 说 是 个 好 主意 ， 能 观 
看 签名 的 创建 过 程 。 否 则 ， 拉 维 束 可 以 通过 在 箱 内 放 上 一 份 不 同 的 文 
件 来 作弊 。《〈 可 以 论证 的 是 ， 如 果 加 锁 的 箱子 透明 ， 这 一 机 制 的 效果 
会 更 好 。 毕 竟 ， 数 字 签 名 提供 可 靠 性 ， 而 非 隐 秘 性 。 不 过 ， 透 明 锁 箱 
有 点 不 符 直 觉 ， 因 此 我 们 不 会 追求 这 一 可 能 性 。) 


在 实物 挂 锁 把 戏 中 ， 每 位 参与 者 都 能 得 到 独 有 的 相同 挂 锁 和 钥匙 。 


也 许 你 已 经 知道 了 弗 朗 索 瓦 丝 验证 拉 维 文件 可 靠 性 的 方法 了 。 如 
果 任 何人 一 一 甚至 是 拉 维 自己 一 一 试图 否认 这 份 文 件 的 真实 性 ， 弗 六 


索 瓦 丝 部 能 说 “好 ， 拉 维 ， 请 借 我 一 把 你 的 钥 怀 。 现 在 我 要 用 你 的 钥 赴 
来 打开 这 个 锁 箱 。” 在 拉 维 和 其 他 目击 者 (甚至 有 可 能 是 法 院 法 官 ) 的 
见证 下 ， 弗 明 索 瓦 丝 打 开 挂 山 ， 展 示 锁 箱 里 的 内 容 。 然 后 弗 朋 索 瓦 丝 
继续 说 : “ 拉 维 ， 因 为 你 是 唯 一 接触 能 用 这 把 钥 古 打开 的 锁 的 人 ， 其 他 
人 不 可 能 对 锁 箱 内 容 负责 。 因 此 ， 和 是 你 ， 也 只 有 你 能 写 这 张 灰 条 ， 并 
把 它 放 到 锁 箱 内 。 你 确实 欠 我 100 美 元 ! ” 


尽管 这 一 开始 听 起 来 很 复杂 ， 但 这 一 认证 方法 既 实 用 又 强大 。 然 
而 ， 这 种 方法 确实 有 些 缺 点 。 其 主要 问题 是， 它 要 求 拉 维 的 配合 : 在 
弗 表 索 瓦 丝 能 证 明 任 何事 情 之 前 ， 她 必须 说 服 拉 维 借 她 钥匙 。 但 拉 维 
可 以 拒绝 ， 或 者 更 粳 糕 ， 假 装 合作 却 借 给 弗 朗 索 瓦 丝 一 把 不 同 的 钥 是 
一 一 一 把 打 不 开 拉 维 锁 的 钥匙 。 然 后 ， 当 弗 表 索 瓦 丝 打 不 开锁 箱 时 ， 
拉 维 束 能 说 : “看 ， 这 不 是 我 的 挂 锁 ， 伪 造 者 可 能 制作 了 一 份 文 件 ， 并 
在 我 不 知情 的 情况 下 把 它 放 入 锯 箱 中 。” 


为 运 


实物 挂 锁 把 戏 制作 一 个 可 验 订 


付 100 美元 


拉 维 承诺 向 弗 朗 索 瓦 丝 文 


签名 ， 拉 维 将 一 份 文件 拷贝 放 在 锁 箱 内 ， 并 


错 ( 匀 上。 


为 防止 拉 维 使 用 这 种 欺 驴 方法 ， 我 们 仍 需 要 依靠 


方 ， 如 银行 。 和 前 文 的 纸 质 签 名 银行 相反 ， 新 银行 会 存储 钥匙。 


一 把 他 的 挂 
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受信 第 三 


此 ， 参 与 者 不 是 给 银行 一 份 签名 ， 而 十 给 银行 一 把 能 打开 目 己 挂 尔 的 
实物 钥 坏 。 下 图 显示 了 实物 钥匙 银行 。 


这 个 银行 是 这 一 谜 题 的 最 后 部 件 ， 完 整 了 实物 挂 锁 把 戏 的 解释 。 
如 果 弗 明 索 瓦 丝 需要 证 明 拉 维 写 了 人 条 ， 她 只 要 和 一 些 目击 证 人 把 锁 
箱 市 到 银行 ， 在 银行 用 拉 维 的 钥匙 打开 箱子 即 可 。 挂 锁 能 打开 融 证 明 
只 有 拉 维 能 对 箱 中 内 容 负 责 ， 而 箱 中 正好 是 那 份 弗 并 索 瓦 丝 能 试图 验 
证 的 文件 。 


用 乘法 挂 锁 签名 


结果 证 明 ， 我 们 创建 的 钥匙 一 挂 锁 架 构 正 是 数字 签名 所 需 的 方 
法 。 不 过 ， 很 明显 ， 我 们 不 能 在 必须 进行 电子 转换 的 签名 上 使 用 实物 
挂 锁 和 实物 钥 是 。 因 此 ， 下 一 步 就 是 用 类 似 的 能 数字 化 的 数学 对 象 取 
代 挂 锁 和 钥匙 。 具 体 来 说 ， 挂 锁 和 钥匙 将 用 数字 代表 ， 上 锁 或 开锁 动 
作 将 由 钟 算 乘 法 (multiplication in clock arithmetic) 代表 。 如 果 你 对 钟 
算 不 是 很 熟悉 ， 请 查看 第 四 章 的 解释 。 


Physical 
Key Bank 


Takeshi 


Francolse 


实物 钥 古 银 行 有 很 多 钥 古 ， 用 于 开局 对 应 的 挂 锁 。 注 意 每 把 钥 古 都 是 不 同 的 。 


为 得 到 不 能 伪造 的 数字 签名 ， 计 算 机 使 用 的 钟 大 小 非常 大 一 一 钟 
大 小 长 度 基本 在 数 十 或 数 百 位 数 。 不 过 ， 在 接 下 来 的 描述 中 ， 我 们 将 
使 用 的 钟 大 小 会 非常 小 ， 基 本 不 会 在 现实 中 运用 ， 以 确保 计算 能 位 单 


过 人 下 


这 一 部 分 的 所 有 例子 都 使 用 11 作 为 钟 大 小 。 因 为 我 们 会 多 次 用 这 
个 钟 大 小 将 数字 乘 起 来 。 我 在 下 面 给 出 了 一 张 表 ， 列 出 了 将 小 于 11 的 


数 相 乘 得 到 的 所 有 值 。 比 如 ， 让 我 们 来 手动 计算 7x5， 不 用 那 张 表 。 我 
们 先 用 普通 算术 计算 答案 : 7x5 = 35。 然 后 ， 我 们 保留 用 结果 除 以 11 
后 的 余数 。35 除 11 得 3 ( 即 33) ， 余 2。 因 此 ， 最 终结 果 是 2。 从 表 上 
看 ， 第 7 行 第 5 列 的 项 的 确 是 2。 (你 也 能 用 第 7 列 第 5 行 一 一 顺序 并 不 重 
要 ， 你 可 以 自行 查证 。) 你 可 以 自行 尝试 男 一 对 乘法 例子 ， 以 确保 自 
己 理解 。 


在 继续 之 前 ， 我 们 需要 略微 变化 一 下 我 们 尝试 要 解决 的 问题 。 在 
之 前 ， 我 们 一 直 在 寻找 让 拉 维 “签署 "一 条 给 弗 明 索 瓦 丝 的 消息 《实际 
上 是 一 张 欠条 ) 的 方法 。 这 条 消息 用 日 常 英语 写 束 。 但 从 现在 开始 ， 
只 和 数字 打交道 要 方便 得 多 。 因 此 ， 我 们 必须 承认 ， 计 算 机 将 消息 翻 
译 成 一 个 数字 字符 串 让 拉 维 签署 很 容易 。 之 后 ， 如 有 果 有 人 需要 验证 拉 
维 对 这 个 数 子 字符 串 的 签名 时 ， 计 算 机 逆转 翻译 并 把 数 子 转化 成 英语 
也 很 简 单 。 在 讨论 校 验 和 及 更 短 符号 把 戏 时 ， 我 们 遇 到 了 同样 的 问 
题 。 如 果 你 愿意 更 细致 地 理解 这 一 问题 ， 请 回顾 更 短 符号 把 戏 的 讨论 
一 一 这 张 图 给 出 了 一 个 在 字母 和 数 子 之 间 翻 详 的 人 简单、 详尽 的 例子 。 
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钟 大 小 为 11 的 乘法 表 。 


因此 ， 拉 维 不 会 签署 一 条 用 英语 写成 的 消息 ， 而 是 必须 签署 一 个 
数字 字符 串 ， 如 “494138167543..……..83271696129149”。 不 过 ， 为 简单 
起 见 ， 我 们 一 开始 会 假设 签署 的 消息 非常 之 短 : 事实 上 ， 拉 维 的 消息 
将 由 “8” 或 “5” 这 样 的 单个 数字 组 成 。 不 要 担心 :我们 最 终 将 学 会 签署 长 


度 更 合乎 情理 的 消息 的 方法 。 至 于 现在 ， 最 好 还 是 坚持 用 单个 数字 消 
息 . 


做 好 了 这 些 准备 之 后 ， 我 们 就 准备 好 理解 “乘法 挂 锯 把 戏 ” 的 核心 
了 “。 和 实物 挂 锁 把 戏 一 样 ， 拉 维 会 需要 一 把 挂 锁 和 一 把 打开 挂 锁 的 钼 
于 。 获 得 挂 锁 非 常 容易 : 拉 维 首先 选择 一 个 钟 大 小 ， 然 后 选择 比 钟 大 
小 小 的 任意 数 作 为 数字 “ 挂 锁 *”。 (实际 上 ， 一 些 数 比 其 他 数 效 果 更 
好 ， 但 谈 这 些 细节 会 离 题 太 远 。) 为 让 例子 具体 化 ， 假 设 拉 维 选择 11 
作为 钟 大 小 ， 选 择 6 作为 挂 锁 。 


拉 维 承诺 问 弗 朗 索 瓦 冀 
支付 100 匡 元 


1] 乘 5， 钟 大 小 为 ]] 6 


如 何 制作 一 个 数字 签名 ， 用 一 把 “ 挂 锁 ”“ 锁 住 ”一 条 数字 消息 。 图 中 最 上 面 一 行 显示 了 如 何 用 一 


把 实物 挂 锁 在 一 个 箱子 中 锁 住 一 条 消息 。 图 中 最 下 面 一 行 显示 了 类 似 的 数学 操作 ， 里 面 的 消 


息 是 个 数字 (5) ， 挂 锁 是 另 一 个 数字 (6) ， 上 锁 过 程 是 已 知 钟 大 小 的 乘法 。 最 终结 果 (8) 


就 是 消息 的 数字 签名 。 


现在 ， 拉 维 如 何 用 挂 锁 把 消 妃 <“ 锁 ” 入 锁 箱 呢 ? 听 赵 来 也 许 很 奇 
怪 ， 拉 维 将 用 乘法 做 到 这 一 点 : 拉 维 的 “< 上 锁 * 消 息 将 由 挂 锁 和 消息 相 
乘 ( 钟 大 小 为 11) 。 记 住 ， 我 们 现在 在 处 理 一 条 由 单个 数字 组 成 的 消 
尽 。 因此， 假设 拉 维 的 消 居 古 “5”。 那么 他 的 “上 锁 ”* 消 息 会 是 6 x 5, 通 过 
钟 算得 到 结果 为 8。 (你 可 以 用 前 页 的 乘法 表 进 行 双重 核对 ) 这 一 过 程 
在 上 图 中 得 到 了 总 结 。 最 终结 果 “8” 就 是 拉 维 给 原始 消息 的 数字 签名 。 


拉 维 承诺 辐 弗 朗 友 


瓦 丝 支付 100 美 元 


拉 维 承诺 向 弗 朗 索 -一 (| 拉 维 承诺 向 弗 朗 索 
到 支付 1 元 \ 中 一 一 一 了 | 瓦 丝 支 什 I00 美 元 


) 11 乘 6， 钟 大 小 为 1] 8 11 乘 ?， 名 大 小 为 1 
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11 乘 6， 钟 大 小 为 1] 11 乘 ?， 种 大 小 为 ]1 


11 乘 6， 钊 大 小 为 1] | 11 乘 ?， 捉 大 小 为 1 


如 何 使 用 数字 挂 锁 和 对 应 数字 钥 屿 “上 锁 ” 并 在 随后 “解锁 ”一 条 消息 。 图 中 最 上 面 一 行 显示 了 实 


物 版 上 锁 和 解锁 。 图 中 最 下 面 三 行 显示 了 使 用 乘法 给 消息 进行 数字 上 锁 和 解锁 的 例子 。 注 意 ， 


同 


上 - 锁 过 程 得 到 了 一 个 数字 签名 ， 而 解锁 过 程 则 得 到 了 一 条 消息 。 如 果 解 锁 消 息 与 原始 消息 


配 ， 数 字 签 名 就 得 到 了 验证 ， 原 始 消息 为 真 。 


当然 ， 如 果 我 们 随后 不 能 运用 某 种 数学 “钥匙 ” 解 开 消 息 ， 这 种 数 
学 “ 挂 锁 ? 也 会 毫 无 用 处 。 幸 运 的 是 ， 有 一 种 解锁 消息 的 简单 方法 。 这 
种 方法 是 再 次 使 用 乘法 (和 之 前 一 样 应 用 钟 大 小 ) ， 但 这 次 我 们 会 乘 


以 一 个 不 同 的 数 一 一 这 个 数字 经 过 特别 选取 ， 能 解 开 之 前 选取 的 挂 锁 


数字 。 


让 我 们 继续 使 用 这 个 具体 例子 ， 拉 维 仍然 用 11 作 为 钟 大 小 ， 用 6 作 
为 挂 锁 数字 。 结 果 显 示 ， 其 对 应 的 钥匙 是 2。 我 们 怎么 知道 ” 稍 后 再 回 
答 这 个 重要 问题 。 现 在 ， 让 我 们 继续 进行 更 容易 的 任务 ， 在 别人 告诉 
我 们 钥 古 的 数值 时 验证 钥 古 雪 效 。 之 前 所 到 过 ， 我 们 通过 将 上 锁 消 奶 
和 钥 感 相 乘 融 能 解 开 上 锁 消 轧 。 我 们 已 经 在 上 图 中 见 过 ， 当 拉 维 将 消 
息 5 用 挂 锁 6 锁 上 时 ， 他 得 到 了 上 锁 消 息 (或 数字 签名 ) 8。 要 解锁 上 锁 
消 乱 ， 我 们 将 8 用 钟 算 乘 以 钥 十 2， 得 到 结果 5。 就 像 魔 木 一样， 我 们 得 
到 了 原始 消息 5! 整个 过 程 如 上 图 所 示 ， 你 还 能 看 到 其 他 两 个 例子 ， 消 
居 “3” 被 锁 上 后 变 成 “7”"， 用 钥匙 界 开 始 重 新 变 成 “3”。 类 似 的 ，“2” 被 铅 
上 后 变 成 “1”， 但 钥匙 将 其 转化 回 “2”。 


上 图 还 解释 了 该 如 何 验 证 数字 签名 。 你 只 需 用 签署 者 的 乘法 钥匙 
解锁 釜 名 即 可 。 如 采 解 锁 消 息 和 原始 消 忍 匹配 ， 签 名 束 是 真实 的 。 人 否 
则 ， 签 名 就 肯定 是 伪造 的 。 这 一 验证 过 程 在 下 页 图 中 进行 了 更 细致 的 
展示 。 在 这 张 表 中 ， 我 们 继续 使 用 11 作 为 钟 大 小 ， 但 为 显示 我 们 目前 
使 用 的 数字 挂 锁 和 钥 古 没有 特殊 之 处 ， 我 们 在 这 里 使 用 了 多 个 不 同 的 
值 。 特 别 是 ， 挂 锁 值 为 9， 而 相应 钥匙 的 值 为 5。 表 中 第 一 项 的 消息 
是 “4”， 签 名 征 “3”。 签 名 解 开 后 结 采 为 “4”， 与 原 消 恩 匹 配 ， 因 此 等 名 
为 本 人 所 写 。 表 中 第 二 行列 举 了 一 个 相似 的 例子 ， 消 息 为 "8”， 签 名 


为 “6”。 但 表 的 最 后 一 行 显示 了 签名 系 伪造 时 的 情况 。 表 中 第 四 项 的 消 
妃 还 是 “8”， 但 签名 却 是 “7”。 这 个 等 名 解锁 后 是 “2”， 与 原 消 息 不 匹 
配 。 因 此 ， 签 名 系 伪造 。 


全 名 (对 于 真 签名 ， 让 消息 和 挂 锁 值 9 相 “| 解锁 签名 (要 解锁 签名 ， 


1 于 假 签名 ， 选 择 一 个 随机 数 。) 和 钥匙 值 5 相 乘 。) 


如 何 侦 测 一 个 伪造 的 数字 签名 。 这 些 例 子 使 用 的 挂 锁 值 为 9， 钥 匙 值 为 5。 前 两 个 签名 为 真 ， 但 


第 三 个 签名 系 伪 造 。 


如 和 某 你 回想 实物 钥 慎 和 挂 锁 的 例子 ， 你 应 该 会 记得 挂 同 有 防止 其 
他 人 使 用 的 生物 传感器 一 一 否则 伪造 者 束 能 用 拉 维 的 挂 锁 将 任意 消 筷 
所 在 箱子 中 ， 进 而 伪造 这 条 消息 的 签名 。 同 样 的 道理 也 适用 于 数字 挂 
峰 。 拉 维 必 须 保 持 他 的 挂 锁 号 不 为 人 知 。 每 次 他 签署 一 条 消 思 ， 拉 维 
都 要 同时 展示 消息 和 签名 ， 但 并 非 用 于 制作 签名 的 挂 锁 数 。 


拉 维 选择 的 钟 大 小 和 数字 钥匙 呢 ? 这 些 也 必须 保密 吗 ? 不 是 。 拉 
维 可 以 公开 宣布 自己 选择 的 钟 大 小 和 钥匙 值 ， 有 可 能 会 通过 网 站 发 布 


它们 ， 而 无 须 为 验证 签名 的 机 制 妥 协 。 如 果 拉 维 真 的 发 布 了 目 己 的 钟 
大 小 和 钥 感 值 ， 任 何人 都 能 获取 这 些 数字 并 验证 他 的 签名 。 乍 一 看 ， 
这 种 方法 似乎 非常 方便 一 一 但 还 是 有 些 重要 的 细微 之 处 需要 强调 。 


数字 钥匙 银行 


名 称 


Ravi 


Takeshi 


Francoise 


数字 钥匙 银行 。 该 银行 的 作用 并 非 为 数字 钥 是 和 钟 大 小 保密 。 相 反 ， 银 行 是 获取 与 任何 个 人 相 


天 的 真正 钥 是 和 钟 大 小 的 受信 和 权威。 银行 可 以 自由 地 向 任何 有 要 求 的 人 展示 这 些 信息 。 


比如 ， 这 个 方法 消除 了 对 受信 银行 的 需求 吗 ? 纸 质 签 名 技术 和 实物 
挂 锁 一 钥 古 技术 都 需要 受信 银行 。 并 非 如 此 : 仍然 需要 一 个 像 银 行 这 
样 的 受信 第 三 方 。 没 有 受信 第 三 方 ， 拉 维 束 能 分 发 一 个 假 钥 十 值 ， 让 
他 的 签名 失效 。 更 糟 的 是 ， 拉 维 的 敌人 们 可 以 制造 一 个 靳 的 数字 挂 锁 
和 相对 应 的 数字 钥匙 ， 并 在 一 个 网 站 上 宣称 这 就 是 拉 维 的 钥匙 ， 然 后 
用 他 们 新 伪造 的 数字 挂 锁 签 署 任 何 他 们 想 要 的 消 有 肯 。 任 何 相信 这 些 新 
钥 古 属于 拉 维 的 人 都 会 相信 ， 敌 人 的 消 恩 十 拉 维 签署 的 消 轧 。 因 此 ， 
银行 的 角色 并 不 是 为 拉 维 的 钥 是 和 钟 大 小 保密 。 相 反 ， 银 行 是 一 个 拉 
维 的 数字 钥 古 和 钟 大 小 值 的 受信 权威 。 上 疼 展 示 了 这 一 情况 。 


总 结 这 一 讨论 的 一 种 有 用 方法 是 ， 数字 挂 锁定 私有 的 ， 而 数字 铀 
十 和 钟 大 小 则 是 公开 的 。 要 承认 的 是 ， 让 钥 十 “公开 ”有 后 违 到 第 识 ， 
因为 在 我 们 的 日 常生 活 中 ， 我 们 习惯 于 非常 小 心地 保护 我 们 的 实物 钥 
屿 。 为 演 清 钥 是 这 一 不 同 寻 常 的 用 还， 回想 早先 插 述 的 实物 挂 尔 把 
戏 。 在 那个 例子 里 ， 银 行 保有 一 把 拉 维 的 钥 古 ， 并 且 很 乐意 将 之 借 给 
任何 想 要 验证 拉 维 签名 的 人 人。 因此， 在 某 些 意义 上 ， 实 物 钥 是 就 是 “ 公 
开 的 ”。 同 样 的 道理 也 适用 于 乘法 钥匙 。 


现在 是 强调 一 个 重要 现实 问题 的 好 时 机 : 假如 我 们 想 要 人 签署 不 目 
一 位 数 的 消息 呢 ? 这 一 问题 有 多 种 答案 。 第 一 个 解决 方案 是 使 用 一 个 
很 大 的 钟 大 小 : 比如 ， 如 果 我 们 使 用 一 个 100 位 数 的 钟 大 小 ， 那 么 通过 
相同 的 方法 ， 我 们 能 用 100 位 数 的 签名 签署 100 位 数 的 消息 。 对 于 长 于 


100 位 数 的 消 思 ， 我 们 可 以 将 消 妃 分 成 100 位 数 的 块 ， 并 单独 等 普 每 个 
块 。 但 计算 机 科学 家 们 有 一 种 更 好 的 方法 来 做 到 这 一 点 。 实 际 情况 
征 ， 出 于 签署 的 目的 ， 通 过 应 用 一 种 名 为 加 密 哈 布 男 数 的 转化 方法 ， 
长 消息 能 缩减 为 单个 块 (比如 100 位 数 ) 。 我 们 已 经 在 第 五 章 谈 到 过 加 
密 哈 希 函 数 ， 它 们 在 第 五 划 被 用 作 校 验 和 ， 以 确保 大 消息 (如 一 个 软 
) 内 容 正确 。 这 里 的 想法 也 很 类 似 : 一 条 长 消息 在 签署 前 被 缩减 
为 小 得 多 的 块 。 这 意味 着 极 大 的 “消息 ”一 一 如 软件 包 
车。 为 简单 起 见 ， 我 们 将 在 余下 的 章节 中 忽略 长 消息 问题 。 


全 已 言 - 六 人 以 
能 高 效 签 


另外 一 个 重要 问题 羡 : 这 些 数字 挂 锁 和 钥 古 最 初 来 目 哪里 ? 之 前 
曾 提 到 ， 参 与 者 们 基本 上 能 为 挂 锁 选 择 任意 值 。 不 笠 的 是 ， 隐 藏 在 单 
词 “essentially”( 基 本 上 ) 背后 的 细节 1 需要 对 数字 理论 有 相当 于 本 科 课 
程 的 认识 。 但 假设 你 没有 机 会 学 习 数字 理论 ， 让 我 来 讲述 下 列 难题 : 
如 采 钟 大 小 是 个 素数 ， 那 么 任何 钟 大 小 之 外 的 正 值 都 可 以 作为 挂 锁 。 
人 否则， 情况 束 要 复杂 得 多 了 。 素 数 没有 除 1 和 上 自身 之 外 的 商 。 本 章 中 使 
用 的 钟 大 小 11 就 是 素数 。 


因此 ， 选 择 挂 锁 很 创 单 ， 特 别 十 在 钟 大 小 为 素数 的 情况 下 。 但 一 
旦 选 定 挂 锁 ， 我 们 还 需要 应 付 解 开 选 中 挂 锁 的 对 应 数字 钥 是 。 这 是 个 
很 有 趣 一 一 也 非常 古老 一 一 的 数学 问题 。 实 际 上 ， 这 个 问题 的 解决 方 
案 流 传 了 数 个 世纪 ， 而 其 中 心思 想 甚至 要 更 为 古老 : 这 一 广为人知 的 
技巧 名 为 欧 几 里 得 算法 ， 由 布 脐 数 学 家 欧 儿 里 得 于 2 000 多 年 前 发 明 。 


不 过 ， 我 们 不 必 在 此 追寻 钥匙 生成 的 细节 ， 只 需要 知道 ， 给 出 一 个 挂 
应 值 ， 计 算 机 束 能 通过 一 种 名 为 欧 儿 里 得 算法 的 知名 数学 技巧 得 出 相 
对 应 的 钥匙 值 。 


如 果 你 仍 对 这 一 解释 不 满意 ， 也 许 在 我 稍 后 揭示 戏剧 性 转折 后 ， 
你 会 变 得 高 兴 。 整 个 挂 锁 和 钥匙 的 “乘法 "方法 有 个 根本 缺陷 ， 必 须 被 
抛弃 。 在 下 一 部 分 ， 我们 将 用 一 种 不 同 的 方法 处 理 挂 锁 和 钥匙 ， 一 种 
实际 上 已 经 在 现实 中 运用 的 方法 。 那 么 ， 为 什么 我 还 要 解释 有 缺陷 的 
乘法 系统 呢 ? 主 要 原因 是 ， 所 有 人 都 熟悉 乘法 ， 这 也 意味 着 不 需要 
次 性 接受 大 量 新 知识 就 能 解释 系统 。 另 外 一 个 原因 是 ， 在 有 缺陷 的 乘 
法 方法 和 我 们 将 在 下 面 考 虑 的 正确 方法 之 间 ， 存 在 一 些 迷 人 的 联系 。 


但 在 继续 往 下 讲 之 前 ， 让 我 们 尝试 理解 乘法 方法 的 缺陷 。 之 前 说 
过 ， 挂 锁 值 是 私有 的 (或 秘密 的 ) ， 而 钥匙 值 则 是 公开 的 。 刚 刚 也 讨 
论 过 ， 签 名 机 制 的 参与 者 可 以 自由 选择 钟 大 小 (公开 ) 和 挂 锁 值 〈 仍 
旧 保 密 ) ， 然 后 通过 计算 机 生成 对 应 钥匙 值 (在 这 个 乘法 钥匙 的 特殊 
例子 中 ， 我 们 会 使 用 欧 几 里 得 算法 ) 。 钥 匙 会 存储 在 一 个 受信 和 银行 
中 ， 而 银行 会 向 任何 请 求 鸭 人 展示 钥匙 值 。 乘 法 方法 的 问题 在 于 ， 用 
于 从 挂 锁 生 成 钥 古 的 同样 把 戏 一 一 基本 上 和 是 指 欧 几 里 得 算法 一 一 能 非 
常 完 美 地 逆向 运行 : 同样 的 技术 能 让 计算 机 生成 已 有 钥匙 值 对 应 的 挂 
锁 值 ! 我 们 立马 吏 知 道 了 抛弃 整个 数字 签名 机 制 的 原因 。 因 为 钥匙 什 


征 公 开 的 ， 理 应 保密 的 挂 锁 值 也 能 被 任何 人 计算 出 来 。 而 一 旦 你 知道 
了 某 人 的 挂 山 值 ， 你 束 能 伪造 那个 人 的 数字 签名 。 


用 指数 挂 锁 签 名 


在 这 一 部 分 ， 我 们 将 升级 有 缺陷 的 乘法 系统 ， 代 之 以 一 种 在 现实 
中 运用 的 著名 数字 签名 机 制 RSA。 新 系统 将 使 用 一 种 不 知名 的 操作 求 
寡 (exponentiation) 取代 乘法 操作 。 事 实 上 ， 我 们 经 历 了 和 第 四 章 理 
解 公 钥 加 密 相 同 的 求 顺 步 又 : 我 们 先 弄 清 一 个 使 用 乘法 的 简单 的 缺陷 
系统 ， 然 后 钱 究 使 用 求 副 的 真实 系统 。 


因此 ， 如 果 你 对 5 和 3“4 等 需 符 号 不 熟悉 ， 这 是 个 重 温 “ 现 实生 活 中 
的 颜料 混合 把 戏 ” 内 容 的 好 时 机 。 但 是 要 提醒 一 句 ，34 (“3 的 4 次 方 ”) 
意味 着 3x3x3x3。 另 外 ， 我 们 需要 儿 个 技术 术语 。 在 如 34 这 样 的 表述 
中 ，4 被 称 作 指数 (exponent) 或 曙 (power) ， 而 3 则 被 称 为 底 

(base) 。 在 一 个 底 上 应 用 指数 的 过 程 被 称 为 “上 自 乘 需 次 ” (raising to a 
power) ， 更 正式 的 说 法 是 求 寡 《exponentiation) 。 和 第 四 章 一 样 ， 我 
们 将 结合 求 需 与 钟 算 。 本 章 这 一 部 分 的 所 有 例子 都 用 22 作 为 钟 大 小 。 
我 们 唯一 需要 的 指数 是 3 和 7， 因 此 在 下 面 提 供 了 一 张 表 ， 显 示 n3 和 mn” 的 
值 ，n 为 1 到 20 的 整数 〈 钟 大 小 为 22) 。 


n 3 n’ n n3 n’ 
1 ll 11 11 
2 8 18 l2 12 12 
3 5 9 13 19 ps 
4 20 16 l4 16 20 
Ss 3 15 9 D 
6 18 8 16 4 14 
2 1 47 17 7 19 
8 6 2 18 2 6 
9 > 15 19 17 13 
1]0 10 10 20 14 4 


钟 大 小 为 22 时 n 的 三 次 方 和 七 次 方 的 值 。 


现在 让 我 们 核实 表 中 的 两 个 项 ， 确 保 它 们 有 意义 。 看 一 下 对 应 n=4 
的 行 。 如 果 我 们 不 使 用 钟 算 ， 结 果 就 是 4 =4x4x4 = 64。 但 应 用 钟 大 小 
22 后 ，64 中 减 去 2 个 22 (44) 余 20。 这 是 n3 栏 那 一 项 为 20 的 由 来 。 类 似 
的 ， 在 不 应 用 钟 算 的 情况 下 ， 你 能 算出 47 = 16384， 比 最 接近 的 22 的 倍 
数 正 好 大 16 (如 果 你 感 兴 趣 ，22 x 744 = 16 368) 。 这 解释 了 n7 栏 那 一 
项 为 16 的 由 来 。 


现在 我 们 最 终 准 备 好 了 观察 实际 运作 中 的 数 子 釜 名 。 系 统 运作 的 
方式 和 前 一 部 分 的 乘法 方法 一 样 ， 只 有 一 个 例外 ， 和 用 乘法 给 消息 上 


峰 及 解锁 不 同 的 征 ， 我 们 用 求 才 来 进行 这 些 操 作 。 和 前 面 的 例子 一 
样 ， 拉 维 首 移 选 择 并 公开 钟 大 小 。 在 这 里 ， 拉 维 用 22 作 钟 大 小 。 然 后 
他 选择 一 个 秘密 挂 锁 值 ， 这 个 值 可 以 是 钟 大 小 之 外 的 任意 数 (受制 于 
一 些 细节 ， 我 们 将 在 稍 后 进行 简短 讨论 ) 。 在 这 个 例子 中 ， 拉 维 选 择 3 
作为 挂 锁 值 。 然 后 ， 他 用 计算 机 算出 挂 俩 和 钟 大 小 对 应 的 钥 古 值 。 我 
们 稍 后 会 多 了 解 一 些 与 此 有 关 的 细 方 。 但 唯一 重要 的 事实 是 ， 计 算 机 
能 使 用 众所周知 的 数学 技术 ， 轻 易 根 据 挂 锁 和 钟 大 小 计算 出 钥 赴 。 在 
这 个 例子 中 ， 结 末 证 明 钥匙 值 7 对 应 先前 选取 的 挂 锁 值 3。 


拉 仅 承诺 癌 弗 朗 索 
瓦 丝 支 付 100 美元 


挂 再 
4 nn UW sm 4 
0 


神 大 小 为 22 钟 大 小 为 2 
er 

6 22 取 3 次 方 上 ， 22 取 7 次 广告， 0 
钟 大 小 为 2 钟 大 小 为 22 


1 2 取 3 次 方 1 pr 
钟 大 小 为 2 钟 大 小 为 2 


j 求 需 给 消息 上 锁 和 解锁 。 


上 图 给 出 了 一 些 拉 维 如 何 签 署 消 息 ， 以 及 其 他 人 如 何 解 锁 并 核实 
签名 的 具体 例子 。 如 果 消 息 是 “4”， 签 名 是 “20”: 我 们 通过 以 挂 锁 值 为 
需 ， 证 消息 求 此 过 得 出 结果 。 因 此 ， 我 们 要 计算 43， 在 应 用 钟 大 小 之 后 
得 20。 (不 要 忘记 ,你 可 以 用 上 页 的 表 轻 易 地 核实 这 些 计 算 。) 现 
在 ， 当 弗 朗 索 瓦 丝 想 要 验证 拉 维 的 数字 签名 “20? 时 ， 她 先 去 银行 得 到 


拉 维 钟 大 小 和 钥匙 的 权威 值 。 (银行 和 之 前 例子 中 的 一 样 ， 除 了 数字 
不 同 外 ) 然后 弗 朗 索 瓦 丝 用 签名 求 钥 是 值 的 占 ， 再 应 用 钟 大 小 : 计算 
结果 为 20” = 4， 你 可 以 和 上 页 图 中 的 结果 对 照 。 如 采 结 果 和 原 消 恩 匹 
配 〈 在 这 个 例子 中 也 的 确 匹配 ) ， 签 名 为 真 。 上 图 显示 了 消 
轧 *8” 和 “7 的 相似 计算 。 


下 表 再 次 展示 了 这 一 过 程 ， 这 次 强调 了 等 名 的 验证 过 程 。 图 中 前 
两 个 例子 和 上 一 张 图 中 的 一 样 (分 别 是 消息 “4” 和 “8”) ， 都 是 真 签名 。 
第 三 个 例子 的 消息 是 “8”， 签 名 是 “9”。 在 应 用 钟 大 小 和 钥 古 值 解 锁 后 ， 
97 的 结果 是 15， 和 原 消 息 不 匹配 。 因 此 ， 第 三 条 消息 系 伪 造 。 


消 | 数字 签名 解锁 签名 


(对 于 真 签名 ， 让 消息 求 挂 锁 值 3 的 需 。 对 于 假 (要 解锁 签名 ， 求 钥匙 


签名 ， 选 择 一 个 随机 数 。) 值 7 的 占 。) 
| 到 和 
如 何 用 求 需 侦 测 一 个 伪造 的 数字 签名 。 这 些 例 子 使 用 的 挂 锁 值 为 9， 钥 古 值 为 7， 钟 大 小 为 22。 


前 两 个 签名 为 真 ， 但 第 三 个 签名 系 伪造 。 


如 前 所 述 ， 这 种 求 挂 锁 值 的 怖 和 求 钥 匙 值 的 震 以 RSA 数 字 签 名 机 
制 而 闻名 。 这 个 名 字 由 于 20 世 纪 70 年 代 首 次 发 表 该 系统 的 三 位 发 明 者 
姓 的 首 字母 组 合 而 成 : 罗 纳 德 .李维斯 特 (Ronald Rivest) 、 阿 迪 : 沙 米 
尔 (Adi Shamir) 和 雷 奥 纳 德 - 阿 德 尔 曼 (Leonard Adlemen) 。RSA 听 
起 来 可 能 很 耳 熟 ， 因 为 我 们 已 经 在 讨论 公 钥 加 密 的 第 四 章 遇 到 过 这 个 
首 字母 缩 略 词 。 事 实 上，RSA 既 是 一 种 公 钥 加 密 机 制 ， 又 是 一 种 数字 
签名 机 制 一 一 这 绝 非 偶然 ， 这 两 种 算法 之 间 有 着 很 深 的 理论 关系 。 在 
本 章 ， 我 们 只 探索 了 RSA 的 数字 签名 面 ， 但 你 可 能 已 经 注意 到 了 一 些 
和 第 四 章 思 想 惊 人 的 相似 之 处 。 


如 何在 RSA 系 统 中 选择 钟 大 小 、 挂 鲍 和 钥 赴 的 细 广 非常 吸引 和 人 人， 
但 在 理解 大 致 方法 上 却 不 需要 这 些 细 记 。 最 重要 的 是 ， 在 这 一 系统 
中 ， 一 旦 选 定 挂 锁 值 ， 参 与 者 融 能 轻易 计算 出 合适 的 钥 古 值 。 但 其 他 
任何 人 想 要 逆转 这 一 过 程 都 不 可 能 : 如 果 你 知道 荣 人 正在 用 的 钥 惩 和 
钟 大小， 你 也 不 能 算出 对 应 的 挂 锁 值 。 这 弥补 了 早 前 解释 的 乘法 系统 
的 缺陷 。 


至 少 计算 机 科学 家 认为 RSA 很 安全 ， 但 没 人 能 肯 全 
的 安全 ? 这 个 问题 是 整个 计算 机 科学 中 最 迷人 、 最 令 人 烦恼 的 问题 之 
一 。 要 提 一 下 ， 这 个 问题 同时 取决 于 一 个 未 解决 的 古老 数学 问题 ， 以 
及 一 个 位 于 物理 学 和 计算 机 科学 研究 交叉 地 带 的 最 新 热门 主题 。 数 学 
问题 就 是 知名 的 整数 分 解 (integer factorization) ; 而 热门 研究 主题 就 


定 。RSA 是 否 真 


是 量子 计算 (quantum computing) 。 我 们 将 逐一 研究 RSA 安 全 性 的 这 
两 个 方面 ， 但 在 这 么 做 之 前 ， 我 们 需要 更 好 地 了 解 一 下 ， 像 RSA 这 样 
的 数字 签名 机 制 “ 安 全 ”的 真正 含义 是 什么 。 


RSA 的 安全 性 


所 有 数字 签名 机 制 的 安全 性 都 要 归结 到 一 个 问题 “敌人 能 伪造 我 
的 签名 吗 ? ”对 于 RSA 而 言 ， 这 个 问题 可 以 转化 为 “敌人 能 根据 我 的 公开 
钟 大 小 和 钥匙 值 计 算出 我 的 私人 挂 锁 值 吗 ? 关 是 的 ! ”这 一 问题 的 简单 
答案 也 许 会 让 你 感到 诅 开 。 事 实 上 ， 你 已 经 知道 : 通过 试 错 总 有 可 能 
算出 茶 人 的 挂 锁 值 。 毕 竞 ， 我 们 有 消息 、 钟 大 小 和 数字 签名 。 我 们 知 
道 挂 锁 值 要 小 于 钟 大 小 ， 因 此 我 们 可 以 人 簿 单 地 逐一 符 试 所 有 可 能 的 挂 
锁 值 ， 直 到 找到 一 个 能 生成 正确 釜 名 的 挂 锁 值 。 这 就 是 一 个 消 姑 求 每 
个 近 试 挂 锁 值 的 需 的 问题 。 在 实际 中 ， 诀 穹 症 RSA 机 制 使 用 绝对 大 的 
钟 大 小 一 一 比如 数 千 位 数 长。 这 样 ， 即 便 使 用 现存 最 快 的 超级 计算 
机 ， 也 要 论 数 万 亿 年 才能 壬 试 所 有 可 能 的 挂 锁 值 。 因 此 ， 我 们 对 敌人 
征 否 能 用 某 种 方法 计算 出 挂 锁 值 不 感 兴趣 。 相 反 ， 我 们 想 知 道 政 人 是 
人 否 能 足够 高 效 地 这 么 做 ， 从 而 造成 实际 威胁 。 如 果 政 人 的 最 佳 攻击 方 
法 驶 是 试 错 一 一 计算 机 科学 家 通常 称 之 为 骏 力 破解 (brute force) 
我 们 可 以 一 直 都 选用 足够 大 的 数 作为 钟 大 小 ， 从 而 让 攻击 变 得 不 切实 


际 。 另 一 方面 ， 如 采 笋 人 的 技术 效率 比 又 力 破解 快 很 多 ， 我 们 束 可 能 
有 麻烦 了 。 


比如 ， 说 回 乘 法 挂 锁 和 钥匙 机 制 ， 我 们 知道 丛 署 人 可 以 选择 一 个 
挂 锁 值 ， 然 后 通过 使 用 欧 几 里 得 算法 计算 钥 是 值 。 但 缺陷 是 敌人 无 须 
依靠 又 力 破 解 承 能 逆转 过 程 : 结果 证 明 ， 欧 儿 里 得 算法 也 能 根据 钥匙 
值 计 算出 挂 锁 值 ， 而 这 一 算法 要 比 骏 力 破解 高 效 得 多 。 这 也 是 乘法 方 
法 被 认为 不 安全 的 原因 。 


RSA 和 因 式 分 解 的 联系 


我 之 前 承诺 过 ， 要 展示 RSA 的 安全 性 与 一 个 名 为 整数 分 解 的 古老 
数学 问题 之 间 的 联系 。 为 理解 这 一 联系 ， 我 们 需要 多 知道 一 些 与 如 何 
选择 RSA 钟 大 小 有 天 的 细 记 。 


首先 ， 回 顾 一 下 素数 的 定义 : 素数 就 是 只 有 1 和 它 自身 两 个 因子 的 
数 。 比 如 ，31 是 素数 ， 因 为 只 有 1x31 才 能 得 到 31。 但 33 却 不 是 素数 ， 
因为 33=3x11。 


现在 ， 我 们 准备 好 研究 签署 人 一 一 如 老 朋 友 拉 维 一 一 生成 RSA 钟 
大 小 的 全 过 程 。 拉 维 做 的 第 一 件 事 是 移 择 两 个 非常 大 的 素数 。 基 本 上 
这 些 素数 会 有 数 百 位 数 长 ， 但 和 之 前 一 样 ， 我 们 用 小 例子 代 奉 。 假 设 
拉 维 选择 了 素数 2 和 11， 然 后 将 两 数 相 乘 ， 得 到 钟 大 小 2x11=22。 钟 大 


小 会 和 拉 维 选取 的 钥 慎 值 一 道 公 开 。 但 一 一 这 是 关键 时 刻 一 一 钟 大 小 
的 两 个 素数 因子 仍然 保密 ， 只 有 拉 维 知道 。RSA 之 后 的 数学 让 拉 维 有 
方法 使 用 这 两 个 素数 因子 根据 钥匙 值 算出 挂 锁 值 ， 反 之 亦 然 。 


这 一 方法 的 细节 在 下 图 中 得 到 了 揪 述 ， 但 它们 和 我 们 的 主要 目的 
无 关 。 我 们 需要 知道 的 就 是 ， 拉 维 的 敌人 不 能 使 用 公开 信息 ( 钟 大 小 
和 钥匙 值 ) 计算 出 他 的 保密 挂 锁 值 。 但 如 果 他 的 敌人 也 知道 钟 大 小 的 
两 个 素数 因 了 于 ， 他 们 束 能 轻易 计算 出 保密 的 挂 锁 值 。 换 言 之 ， 如 采 拉 
维 的 敌人 能 将 钟 大 小 因 式 分 解 ， 他 们 就 能 伪造 拉 维 的 签名 。 (当然 ， 
可 能 还 有 其 他 破解 RSA 的 方法 。 对 钟 大 小 进行 高 效 因 式 分 解 只 是 可 能 
的 攻击 方法 之 一 。) 


在 这 个 小 例子 中 ， 将 钟 大 小 因 式 分 解 〈 并 破解 数字 签名 机 制 ) 非 

常 容易 ， 所 有 人 都 知道 22=2x11。 但 当 钟 大 小 有 数 百 位 或 数 千 位 数 长 
时 ， 找 出 因子 束 变 得 极其 困难 了 。 事 实 上 ， 尽 管 这 个 所 谓 的 “整数 分 
解 ” 问 题 被 研究 了 数 个 世纪 ， 还 没 人 找到 一 个 足够 高 效 的 通用 方法 解决 
它 ， 并 对 标准 RSA 钟 大 小 造成 危害 。 


数学 史 中 充满 了 未 解决 问题 ， 尽 管 这 些 迷 人 问题 缺乏 任何 实际 应 
用 ， 单 靠 其 糯 学 特质 就 吸引 了 数学 家 进行 深入 研究 。 令 侦 感 惊讶 的 
许多 这 类 迷人 但 显然 无 用 的 问题 后 来 部 有 了 很 大 的 实用 价值 一 一 
在 一 些 例子 中 ， 这 一 价值 只 有 在 问题 被 研究 数 个 世纪 后 才 发 现 。 


|: 


1 x 10 = 10 
第 二 钟 大 


小 


拉 维 选择 两 个 素数 (2 和 11) 并 将 两 数 相 乘 得 到 钟 大 小 
(22) 。 我 们 将 其 称 为 “第 一 * 钟 大 小 ， 原 因 很 快 即 会 说 明 。 接 下 
来 ， 拉 维 将 两 个 隶 数 各 减 1， 再 将 相 城 后 得 到 的 数 相 乘 。 这 驳 得 到 
了 拉 维 “第 二 ” 钟 大 小 。 在 这 个 例子 中 ， 拉 维 再 将 原 取 数 各 减 1 后 分 
别 得 到 1 和 10， 因 此 第 二 钟 大 小 为 1x10=10。 

这 时 ， 我 们 遇 到 了 一 个 令 人 极其 愉快 的 联系 ， 这 一 联系 和 之 
前 描述 的 有 缺陷 的 乘法 挂 锁 钥 是 系统 有 关 : 拉 维 根据 乘法 系统 选 
择 了 挂 锁 和 钥匙 ， 但 却 使 用 第 二 钟 大 小 而 非 第 一 钟 大 小 。 结 果 显 
示 ， 当 使 用 第 二 钟 大 小 10 时 ， 与 之 对 应 的 乘法 钥匙 为 7。 我 们 能 很 
快 证 明 这 一 方式 奏效 : 消息 “8” 乘 上 挂 锁 值 为 8x3=24， 应 用 钟 大 小 
10 后 得 “4”。 用 钥匙 解锁 “4” 得 4x7=28， 应 用 钟 大 小 后 得 “8” 一 一 和 
原 消息 一 样 。 


现在 拉 维 的 工作 完成 了 : 他 将 乘法 挂 锁 和 刚刚 选择 的 钥 奸 直 
接 用 作 RSA 系 统 中 的 指数 挂 锁 和 钥匙 。 当 然 ， 它 们 被 当 作 指 数 使 
用 时 会 选择 第 一 钟 大 小 22。 


生成 RSA 钟 、 挂 锁 和 钥 证 值 的 所 有 细节 。 


整数 分 解 这 一 问题 由 来 已 和信。 对 其 最 早 的 闫 肃 饶 究 似 乎 症 在 17 世 

纪 ， 由 数学 家 费 马 (Fermat) 和 梅森 (Mersenne) 进行 。 欧 拉 
(Euler) 和 高 斯 (Gauss) 两 位 数学 泰斗 一 也 在 接 下 来 的 世纪 里 
对 这 一 问题 做 出 了 页 献 ， 其 他 许多 人 也 页 献 了 目 己 的 力量 。 但 直到 公 
钥 加 密 于 20 世 纪 70 年 代 发 明 ， 分 解 大 数字 的 困难 才 成 为 一 个 实际 应 用 
的 关键 。 你 现在 应 该 知道 ， 任 何 发 明 一 种 高 效 分 解 大 数字 算法 的 人 都 


在 这 听 起 来 有 点 和 危 言 低 听 之 前 ， 我 要 海 清 一 点 ，20 世 纪 70 年 代 后 
发 明了 无 数 其 他 数字 签名 机 制 。 尽 管 每 种 机 制 都 依赖 于 一 些 基 本 数学 
难题 的 难 解 度 ， 但 不 同 的 机 制 依赖 不 同 的 数学 难题 。 因 此 ， 发 明 一 种 
高 效 的 分 解 因子 算法 只 会 破坏 类 RSA 机 制 。 


另 一 方面 ， 计 算 机 科学 家 都 对 一 个 适用 于 所 有 这 些 系 统 的 迷人 问 
题 感到 困扰 : 没有 一 种 机 制 被 证 明 是 安全 的 。 每 一 种 机 制 都 依赖 于 一 
些 很 复杂 、 解 题 时 间 很 长 的 数学 难题 。 而 在 每 个 难题 中 ， 理 论 学 家 叉 


不 能 证 明 没有 高 效 解决 方案 存在 。 因 此 ， 尽 管 专家 们 认为 可 能 性 非常 
低 ， 但 原则 上 任何 时 候 任何 一 种 加 密 或 数字 等 名 机 制 都 可 能 家 攻破 。 


RSA 和 量子 计算 机 的 联系 


我 苑 现 了 的 露 RSA 和 一 个 古老 数学 问题 之 间 联 系 的 承 诡 ， 但 还 未 
解释 RSA 与 量子 计算 这 一 热门 研究 主题 之 间 的 联系 。 要 探 客 这 一 联 
系 ， 我 们 必须 首先 接受 下 列 基本 事实 ， 在 量子 力学 中 ， 物 体 移 动 由 概 
率 主导 一 一 与 经 典 物理 学 的 决定 论 定律 (deterministic laws) 相反 。 
此 ,假如 你 用 易 受 量子 力学 影响 的 部 件 搭建 一 台 计算 机 ， 它 所 计算 的 
值 会 由 概率 决定 ， 而 非 经 典 计 算 机 生成 的 由 0 和 1 组 成 的 绝对 确定 的 序 
列 。 看 待 这 一 情 议 的 另 一 种 角度 是 ， 量 子 计 算 机 会 同时 存储 多 个 不 同 
的 值 : 不 同 的 值 有 不 同 的 概率 ， 但 在 你 强迫 计算 机 输出 一 个 最 终 答 案 
前 ， 所 有 值 都 同时 存在 。 这 让 量子 计算 机 同时 计算 多 个 不 同 可 能 的 答 
案 成 为 可 能 。 对 于 一 些 特定 种 类 的 问题 ， 你 可 以 使 用 “其 力 破解 "方法 
同时 竹 试 所 有 可 能 的 解决 方案 ! 


这 确实 只 对 特定 种 类 的 问题 过 效 ， 但 整数 分 解 恰巧 融 生 量子 计算 
机 在 执行 效率 上 比 经 典 计算 机 快 得 多 的 任务 之 一 。 因 此 ， 如 果 你 能 拱 
建 一 台 能 处 理 数 千 位 数 数字 的 量子 计算 机 ， 你 就 能 像 先 前 解释 的 一 样 
伪造 RSA 签 名 : 因 式 分 解 公 开 钟 大 小 ， 使 用 因子 得 到 第 二 钟 大 小 ， 表 
使 用 第 二 钟 大 小 从 公开 钥匙 值 中 获得 私密 挂 锁 值 。 


在 我 于 2011 年 写 下 这 些 文字 时 ， 量 子 计算 的 理论 超前 实践 很 多 。 
研究 人 员 们 尝试 搭 建 真 正 的 量子 计算 机 ， 但 目前 为 止 由 量子 计算 机 执 
行 的 最 大 因 式 分 解 是 15=3x5 一 一 离 因 式 分 解数 千 位 数 长 的 RSA 钟 大 小 
还 相差 其 远 ! 而 且 在 创造 更 大 的 量子 计算 机 前 ， 还 有 非常 具体 的 问题 
需要 解决 。 因 此 ， 没 人 知道 量子 计算 机 何 时 一 一 或 能 否 一 一 大 到 能 够 
一 次 性 破解 RSA 系 统 。 


实际 中 的 数字 签名 


在 本 章 开 头 ， 我 们 了 解 到 如 你 我 的 终端 用 户 并 没有 太 多 数字 签名 
的 需求 。 一 些 计 算 机 深度 用 户 的 确 会 对 电子 邮件 消息 等 东西 签名 ， 但 
对 于 绝 大 多 数 人 而 言 ， 数 字 签 名 的 主要 用 途 是 验证 下 载 后 的 内 容 。 最 
明显 的 例子 是 ， 当 你 下 载 一 份 新 软件 时 ， 如 果 软 件 有 签名 ， 计 算 机 就 
会 使 用 签名 者 的 公 钥 “ 解 开 ”签名 ， 并 将 结果 和 签名 者 的 “消息 ”一 一 也 就 
是 软件 本 身 一 一 对 比 。[ 之 前 提 过 ， 在 实践 中 ， 软 件 会 在 签名 前 被 
缩减 成 一 条 小 得 多 的 名 为 安全 哈 希 (secure hash) 的 消息 。] 如 
果 解 开 的 签名 与 软件 匹配 ， 你 会 看 到 一 条 鼓舞 人 的 消息 ;否则 ， 你 会 
看 到 一 个 更 加 可 怕 的 警告 : 这 两 个 例子 都 在 本 章 开 头 的 图 中 有 显示 。 


我 一 直 都 强调 ， 本 章 所 有 机 制 都 需要 某 种 受信 “银行 "存储 签名 者 
的 公 钥 和 钟 大 小 。 笠 和 运 的 是 ， 你 可 能 也 注意 到 了 ， 每 次 下 完 一 些 软 


件 ， 你 都 无 须 去 一 家 真正 的 银行 。 在 现实 生活 中 ， 存 储 公 钥 的 受信 组 
织 被 称 为 认证 机 构 (certification authorities) 。 所 有 认证 机 构 都 有 维护 
服务 器 ， 有 需要 的 人 可 以 连接 这 些 服务 器 下 载 公 钥 信 息 。 因 此 ， 当 你 
的 计算 机 收 到 一 个 数字 签名 时 ， 签 名 还 会 伴 有 说 明 可 以 去 哪些 认证 机 
构 获 取 签 名 者 公 钥 的 信息 。 


你 可 能 已 经 注意 到 了 这 个 问题 : 的 确 ， 计 算 机 能 先 一 步 通过 制定 
认证 机 构 验 证 签名 ， 但 我 们 怎么 才能 信任 机 构 本 身 呢 ?我 们 的 做 法 就 
是 将 验证 一 个 组 织 (发 送 软 件 给 你 的 组 织 ， 如 NanoSoft.com) 身份 的 问 
题 ， 转 移 为 验证 男 一 个 组 织 (认证 机 构 ， 如 TrustMe Inc) 身份 的 问 
题 。 不 管 你 相 不 相信 ， 这 个 问题 基本 上 通过 认证 机 构 (TrustMe Inc.) 
的 数字 签名 指引 你 前 往 男 一 个 认证 机 构 (如 PleaseTrustUs Ltd.) 验证 。 
这 种 信任 链 可 以 无 限 扩展 ， 但 我 们 永远 会 卡 在 同一 问题 上 : 我 们 如 何 
能 信任 链条 末端 的 组 织 ? 答案 如 上 图 所 示 ， 一 些 特定 组 织 被 正式 指认 
为 所 谓 的 根 认 证 机 构 。VeriSign、GlobalSign 和 GeoTrust 等 都 是 较为 知名 
的 根 认证 机 构 。 在 你 有 要 求 时 ， 众 多 根 认 证 机 构 的 联系 细节 (包括 互 
联网 地 址 和 公 钥 ) 会 预 装 到 浏览 器 软件 中 ， 这 也 是 数字 证 书 的 信任 链 
稳 立 于 一 个 值得 信任 的 起 点 的 原因 。 


| TrustMe Ine, 


Please TrustUs 


预 装 在 浏览 田中 | 


的 名 


获取 验证 数字 签名 所 需要 的 信任 链 。 


悖 论 解 决 


在 本 章 开 头 ， 我 指出 “digital signature” (数字 签名 ) 这 一 短语 可 以 
被 视 为 矛盾 修饰 法 : 任何 数字 的 东西 者 能 被 找 贝 ， 而 签名 不 应 该 能 被 
拷贝 。 如 何 解 决 这 一 悍 论 呢 ? 管 案 是 ， 一 个 数 子 签名 同时 依赖 一 个 只 
有 签名 着 知道 的 秘密 和 被 釜 署 的 消 轧 。 对 于 由 茶 一 特别 实体 签署 的 所 
有 消息 ， 秘 密 (我 们 在 全 章 中 称 其 为 挂 锁 ) 都 相同 。 因 此 ， 任 何人 都 


能 轻易 拷贝 位 名 的 事实 束 变 得 无 天 紧要 了 : 签名 只 可 能 转化 成 一 条 相 
同 的 请 轧 ， 仅 仅 是 搁 贝 签名 并 不 构成 伪造 。 


这 一 迟 论 的 解决 方案 不 仅仅 是 个 精巧 美丽 的 思想 。 数 字 签 名 还 起 
着 巨大 的 实际 作用 : 没有 数字 签名 ， 我 们 所 知 的 互联 网 就 不 会 存在 。 
数据 仍 可 以 通过 加 密 安全 交换 ， 但 要 验证 接收 数据 的 来 源 就 要 困难 得 
多 。 这 一 伟大 思想 和 如 此 广泛 的 实际 影响 相 结合 ， 无 疑 让 数 子 签名 成 
为 计算 机 科学 中 最 伟大 的 成 束 之 一 。 


第 十 章 
什么 可 以 计算 
一 有些 程序 不 可 能 存在 


让 我 提醒 你 一 些 计 算 机 的 问题 。 


一 一 理 查 德 : 费 曼 (Richard Feynman) ， 


1965 年 诺 贝尔 物理 学 奖 获 得 者 


我 们 已 经 见识 过 很 多 聪明 、 强 大 且 精 准 的 算法 一 一 这 些 算法 将 计 
算 机 的 生硬 金属 化 为 你 指 尖 的 精灵 。 事 实 上 ， 根 据 前 面 章 节 的 描述 ， 
很 目 然 让 人 想到 : 有 什么 事情 羡 计 算 机 不 能 为 我 们 做 到 的 吗 ? 如 来 我 
们 把 范围 限制 在 计算 机 现在 能 做 的 事情 上 ， 管 案 很 清 苞 : 目前 ， 计 算 
机 在 许多 有 用 任务 〈《 大 多 数 设计 某 种 形式 的 人 工 智能 ) 上 表现 不 好 。 
例如 英语 和 汉语 这 些 语言 之 间 的 高 质量 翻译 ， 在 繁忙 的 城市 环境 中 目 
动 控 制 车 辆 安全 快速 行驶 ， 给 学 生 功 课 打 分 (作为 老师 ， 这 对 我 来 说 


是 个 大 问题 ) 。 


然而 ， 正 如 我 们 已 经 看 到 那样 ， 一 个 真正 聪明 的 算法 能 取得 的 成 
果 常 常 出 人 意料 。 也 许 束 在 明天 ， 有 人 发 明了 一 种 完美 芍 驶 汽车 的 算 
法 ， 或 一 种 在 给 学 生 打 分 上 效 琳 很 好 的 算法 。 这 些 问题 看 起 来 的 确 很 
困难 ， 但 是 否 困难 到 不 能 解决 呢 ? 的 确 ， 有 问题 能 难 到 永远 没有 人 能 
发 明 解决 它 的 算法 吗 ? 在 本 章 ， 我 们 会 看 到 答案 是 肯定 的 : 有 些 问 题 
计算 机 永远 也 解决 不 了 。 这 一 显著 事实 一 一 一 些 事 情 “ 可 计算 ”而 其 他 
事情 则 不 能 一 一 与 我 们 在 前 面 革 市 中 所 见 的 许多 算法 形成 有 趣 对 比 。 
不 管 未 来 会 发 明 多 少 耶 明 算法 ， 有 些 问题 的 答案 永远 也 “不 可 计算 ”。 


不 可 计算 问题 的 存在 本 喘 束 足够 震撼 ， 但 发 现 它 们 的 故事 更 令 人 
印象 深刻 。 在 发 明 出 第 一 台电 子 计算 机 前 ， 这 类 问题 的 存在 就 已 为 人 
所 知 。 有 两 位 数学 家 一 一 一 位 是 美国 人 ， 一 位 是 英国 人 一 一 于 20 世 纪 
30 年 代 末 各 目 独立 发 现 了 不 可 计算 问题 ， 比 第 一 台 真 正 的 计算 机 上 自 第 


二 次 世界 大 战 之 间 出 现 早 数 年 。 那 位 美国 人 是 阿 隆 佐 : 邱 奇 (Alonzo 
Church) ， 其 在 计算 理论 上 的 突破 性 工作 至 今 仍 是 计算 机 科学 许多 方 
面 的 基础 。 那 位 美国 人 只 能 是 阿兰 :图 灵 ， 其 被 普 裔 视 为 创建 计算 机 科 
学 最 重要 的 人 物 。 图 灵 的 工作 横 跨 计算 思想 的 整个 范围 ， 从 复杂 的 数 
学 理论 、 伟 大 的 哲学 到 大 胆 实际 的 工程 学 。 在 本 章 ， 我 们 追随 即 奇 和 
图 灵 的 脚步 ， 进 行 一 次 最 终 会 展示 某 个 特殊 任务 不 可 能 使 用 计算 机 完 
成 的 旅程 。 这 一 旅程 将 于 下 一 部 分 对 漏洞 和 月 潢 的 讨论 开始 。 


漏洞 、 毅 总 及 软件 的 可 徘 性 


近年 来 计算 机 软件 的 可 靠 性 得 到 了 大 幅 提 升 ， 但 我 们 部 知道 ， 假 
设 软件 会 正确 运行 仍然 不 是 一 个 好 主意 。 最 通常 的 情况 是 ， 即 便 高 质 
量 、 编 写 民 好 的 软件 都 会 做 些 侦 离 其 原 有 目的 的 事 。 最 粳 糙 的 情况 
是 ， 软 件 * 朋 让”， 你 丢失 了 正在 处 理 的 数据 或 文件 (或 你 正在 玩 的 视 
频 游戏 一 一 非常 令 人 不 解 ， 我 就 磁 到 过 这 种 事 ) 。 但 任何 在 20 世 纪 80 
年 代 和 90 年 代 见 过 家 用 计算 机 的 人 都 能 作证 ， 当 时 计算 机 程序 裔 普 的 
频率 要 比 21 世 纪 大 得 多 。 取 得 这 一 提升 有 许多 原因 ， 但 主要 原因 是 日 
动 化 软件 检查 工具 上 取得 的 巨大 进步 。 换 言 之 ,一 旦 一 组 计算 机 程序 
员 编 写 完 一 个 复杂 的 大 型 计算 机 程序 ， 他 们 就 能 使 用 一 个 目 动工 具 检 
查 可 能 导致 这 一 新建 软件 般 溃 的 问题 。 而 这 些 目 动 化 检查 工具 在 发 现 
潜在 错误 上 也 变 得 越 来 越 好 。 


这 目 然 会 让 人 思考 一 个 问题 : 目 动 化 软件 检查 工具 能 人 否 发 展 到 可 


E 

以 贷 测 所 有 计算 机 程序 中 所 有 潜在 问题 的 地 步 呢 ?要 是 能 这 样 肯 

好 ， 因 为 这 能 一 私 永 逸 地 消除 软件 表演 的 可 能 性 。 我 们 将 在 本 章 了 解 
到 ， 永 远 也 达 不 到 这 种 软件 理想 境界 : 可 以 证 明 不 可 能 有 软件 检查 工 
具 能 侦 测 出 所 有 程序 中 所 有 可 能 的 怖 省。 


在 这 里 ， 值 得 花 多 点 时 间 解 释 一 些 事情 “可 以 证 明 不 可 能 ”的 意 
思 。 在 物理 学 和 生物 学 等 大 多 数 科学 中 ， 科 学 家 们 会 对 特定 系统 的 行 
为 方式 提出 假说 ， 并 开展 实验 ， 验 证 假说 是 否 正确 。 但 由 于 实验 本 身 
有 一 定 的 不 确定 性 ， 并 不 能 百 分 百 确定 假说 正确 与 否 ， 即 便 实验 本 号 
非 第 成 功 。 然 而 ,与 目 然 科学 形成 鲜明 对 比 的 是 ， 对 数学 和 计算 机 科 
学 的 一 些 结果 是 可 能 百 分 百 予以 确定 的 。 只 要 你 接受 数学 基本 定理 
(如 1+1=2) ， 数 学 家 使 用 的 演绎 推理 链 可 以 完全 确定 其 他 众多 语句 为 
真 (比如, “任何 以 5 结束 的 数 都 能 被 5 相 除 ”) 。 这 种 推理 并 不 涉及 计 
算 机 : 数学 家 只 使 用 一 文 铅 笔 和 一 张 纸 就 能 证 明 无 可 争辩 的 事实 。 


因此 ， 在 计算 机 科学 中 ， 当 我 们 说 “X 可 以 证 明 不 可 能 * 时 ， 我 们 并 
不 只 是 说 XxX 似乎 非常 困难 ， 或 在 实际 中 也 许 不 可 能 实现 ， 而 是 百 分 百 确 
定 X 不 可 能 实现 ， 因 为 有 人 用 演绎 数学 推理 链 证 明了 这 一 点 。 举 个 简单 
例子 , “10 的 倍数 以 数字 3 结尾 可 以 证 明 不 可 能 ”。 另 一 个 例子 是 本 章 的 
最 终结 论 : 可 以 证 明 不 可 能 存在 一 个 能 侦 测 所 有 计算 机 程序 中 所 有 漠 
在 有 裔 普 的 目 动 化 软件 检查 器 。 


证 明 一 些 事情 不 为 真 


要 证 明 这 种 怖 省 侦 测 程序 不 可 能 存在 ， 我 们 将 要 使 用 一 种 被 数学 
家 称 为 反 证 法 (proof by contradiction) 的 技巧 证 明 。 尽 管 数学 家 喜欢 
对 这 一 技巧 宣示 权利 ， 但 实际 上 和 信 们 在 日 常生 活 中 常常 用 到 它 ， 经 常 
连 想 都 没 想 过 。 举 个 简单 例子 : 


一 开始 ， 我 们 要 同意 下 面 两 个 事实 ， 即 便 是 最 持 怀 疑 的 历史 学 家 
也 不 会 对 此 有 有 异议。 


1. 美国 内 战 发 生 在 19 世 纪 60 年 代 。 
2. 亚伯拉罕 :林肯 是 美国 内 战 期 间 的 总 统 。 


现在 ， 假 设 我 作出 以 下 声明 : “亚伯拉罕 :林肯 生 于 1520 年 。” 这 一 
声明 是 真是 假 ? 即便 你 除了 上 面 两 个 事实 外 对 亚伯拉罕 林肯 一 无 所 
知 ， 你 怎 能 快速 判断 我 的 声明 为 假 呢 ? 


最 有 可 能 的 情况 是 ， 你 的 大 脑 会 经 历 类 似 下 面 的 推理 链 : (1) 没 
有 人 的 奉命 能 超过 150 年 ， 因 此 如 果 亚 伯 拉 罕 -林肯 生 于 1520 年 ， 他 最 迟 
也 是 在 1670 年 死亡 ;， (2) 林肯 是 美国 内 战 期 间 的 总 统 ， 因 此 内 战 必须 
发 生 在 林肯 死亡 前 ， 也 就 是 发 生 在 1670 年 前 ; 〈3) 但 这 不 可 能 ， 因 为 


所 有 人 都 认同 美国 内 战 发 生 在 19 世 纪 60 年 代 ; (4) 因此， 林肯 不 可 能 
生 于 1520 年 。 


让 我 们 尝试 更 细致 地 检验 这 一 推理 。 为 何 得 出 最 开始 声明 为 假 的 
结论 有 效 ? 这 是 因为 我 们 证 明 这 一 断言 与 一 些 已 知 为 真 的 事实 矛盾 。 
特别 是 ， 我 们 证 明 最 初 声明 暗示 美国 内 战 发 生 在 1670 年 前 一 一 这 与 美 
国内 战 发 生 在 19 世 纪 60 年 代 的 已 知事 实 相 矛盾 。 


反 证 法 技巧 极其 重要 ， 我 还 要 再 多 举 点 数学 例子 。 假 设 我 做 出 下 
列 断 言 : “人 的 心脏 10 分 钟 内 平均 跳 6 000 次 。” 这 一 断言 是 真是 假 ? 你 
也 许 很 快 就 会 怀疑 ， 但 你 要 如 何 证 明 其 为 假 呢 ? 现在 ， 在 继续 往 下 读 
前 ， 花 几 秘 钟 分 析 下 你 的 思考 过 程 。 


我 们 可 以 再 用 反 证 法 。 首 先 ， 出 于 论证 的 目的 ， 假 设 这 一 断言 为 
真 : 人 的 心脏 10 分 钟 平均 跳 约 6 000 次 。 如 果 这 一 断言 为 真 ， 一 分 钟 心 
脏 会 跳动 多 少 次 ? 平均 来 看 ， 用 6 000 除 以 10， 也 就 是 一 分 钟 600 次 。 即 
便 不 是 医学 专家 ， 你 也 知道 这 比 正常 心率 高 很 多 ， 正 常 心 率 约 为 每 分 
钟 50 次 至 150 次 心跳 。 因 此 ， 原 始 声 明 与 已 知事 实 巴 看， 肯定 为 假 ， 人 
的 心脏 10 分 钟 平均 跳动 约 6 000 次 为 假 。 


用 更 抽象 的 术语 表示 ， 可 以 如 下 总 结 反 证 法 : 假设 怀疑 某 个 声明 S 
为 假 ， 但 你 却 想 确 信 无 疑 地 证 明 其 为 假 。 下 和 完 ， 你 假设 S$ 为 真 。 通 过 进 


行 一 些 推理 ， 你 得 出 某 个 声明 T 也 必须 为 真 。 然 而 ， 如 末 已 知 T 为 假 ， 
就 出 现 了 矛盾 。 这 证 明 你 的 原始 假设 (S) 也 必 为 假 。 


数学 家 可 以 更 为 稍 短 地 说 明 这 些 ， 只 要 说 “S 导 出 T， 但 T 为 假 ， 
此 S 为 假 ? 这 样 的 话 即 可 。 稍 言 之 ， 这 束 是 反 证 法 。 下 表 展 示 了 如 何 将 


这 一 


抽象 反 证 法 与 上 面 两 个 例子 联系 起 来 : 


第 二 个 例子 


S (原始 声明 ) 于 1520 年 


人 的 心脏 10 分 钟 平均 跳 6 000 次 


T (由 S 导 出 ， 但 已 知 其 为 | 美国 内 战 发 生 在 1670 年 前 


假 ) 人 的 心脏 每 分 钟 跳 600 次 


结论 S$ 为 假 


人 的 心脏 10 分 钟 内 不 会 跳 6 000 次 


到 这 里 ， 我 们 进行 反 证 法 的 旅程 束 完 成 了 。 本 章 的 最 终 目标 古 通 
过 反 证 证 明 ， 不 存在 一 个 能 侦 测 其 他 程序 中 所 有 可 能 崩 江 的 程序 。 但 
在 迈 向 这 一 最 终 目标 前 ， 我 们 需要 熟悉 一 些 和 计算 机 程序 有 关 的 有 趣 


人 


A 
> 
/LU 


豆 


O 〇 


分 析 其 他 程序 的 程序 


计算 机 会 严格 按照 计算 机 程序 的 指令 行事 。 它 们 完全 按照 决定 论 
方式 行事 ， 因 此 每 次 运行 同一 计算 机 程序 都 会 得 到 相同 的 结果 。 输 出 
是 对 还 是 错 ? 事实 上 ， 我 还 没有 给 你 足够 信息 来 回答 这 一 问题 。 的 
确 ， 特 定 的 简单 计算 机 程序 每 次 运行 后 都 能 得 到 相同 的 结果 ， 但 我 们 
每 天 使 用 的 绝 大 多 数 程序 每 次 在 运行 时 看 起 来 都 非常 不 同 。 想 想 你 最 
喜欢 的 文字 处 理 程 序 : 每 次 局 动 时 屏幕 看 起 来 都 一 样 吗 ? 当然 不 是 
一 一 屏幕 出 现 什 么 取决 于 你 打开 的 文件 类 型 。 如 果 我 使 用 Microsoft 
Word 软 件 打开 文件 address-list.docx”， 屏 幕 就 会 显示 一 个 我 保存 在 电脑 
上 的 地 址 列表 。 如 采 我 用 Microsoft Word 软件 打开 文件 “bank- 
letter.docx”， 我 束 能 看 到 昨天 写 给 银行 的 信件 文本 。 (如 果 你 不 认 
识 “.docx”"， 请 在 下 页 的 框 中 查找 关于 文件 名 后 缀 的 内 容 。) 


有 件 事 我 们 要 非常 清楚 : 我 在 这 两 个 例子 中 使 用 的 都 是 同一 款 计 
算 机 程序 ， 也 就 是 Microsoft Word 软 件 ， 只 是 每 个 例子 中 的 输入 不 同 妥 
了 。 不 要 被 所 有 现代 操作 系统 都 能 让 你 双击 一 个 文件 来 运行 一 个 计算 
机 程序 这 一 事实 所 电 和 弄 。 那 只 是 你 友好 的 计算 机 公司 (最 可 能 是 苹果 
或 微软 ) 提供 给 你 的 一 项 便利 。 当 你 双击 一 份 文件 时 ， 一 个 特定 的 计 
算 机 程序 就 会 运行 ， 程 序 会 将 文件 当 作 输 入 使 用 。 而 程序 的 输出 就 是 
你 在 屏幕 上 看 到 的 ， 这 取决 于 你 点 击 了 什么 文件 。 


在 整 章 中 ， 我 都 会 使 用 如 “abcd.txt* 这 样 的 文件 名 。 英 文句 号 
后 面 的 部 分 被 称 为 文件 名 的 “后 级 ” (extension) “abcd.txt” 的 后 


绥 殉 旦 "txt"。 绝 大 多 数 操 作 系统 用 一 个 文件 名 的 后 绥 判 定 文件 包 
舍 什 么 类 型 的 数据 。 比 如 ,“.txt" 文 件 通 利 包 售 纯 文本 , “html” 文 
件 通 第 包含 网 页 ， 而 “.docx” 文 件 则 包含 Microsoft Word 文 件 。 一 些 
操作 系统 默认 隐藏 这 些 后 级 ， 只 有 在 操作 系统 中 关闭 “隐藏 后 
级 ”功能 后 才能 看 到 。 在 网 络 中 搜索 “unhide file extensions”( 显 示 
文件 后 缀 ) 会 显示 如 何 操作 的 指南 。 


一 些 关 于 文件 名 后 缀 的 技术 细节 。 


在 现实 中 ， 计 算 机 程序 的 输入 和 输出 要 比 这 复杂 得 多 。 比 如 ， 当 
你 点 击 一 个 程序 的 染 单 或 打字 时 ， 你 都 在 给 程序 以 额外 输入 。 当 你 保 
存 一 个 文档 或 其 他 文件 时 ， 程 序 会 创造 额外 输出 。 但 为 保持 简单 起 
见 ， 假 设 程序 接收 的 都 是 同样 的 输入 ， 即 存储 在 你 计算 机 上 的 一 个 文 
件 。 我 们 还 假设 程序 得 到 相同 的 输出 ， 即 你 显示 屏 上 的 图 形 窗口 。 


不 和 位 的 是， 双击 文件 的 现代 便利 产生 了 一 个 重要 问题 。 操 作 系 统 
使 用 多 种 隐 明 的 把 戏 来 推测 ， 当 你 双击 一 个 文件 时 ， 你 希望 运行 哪个 
程序 。 但 用 任意 程序 打开 任意 文件 是 可 能 的 ， 意 识 到 这 一 点 很 重要 。 
换言之 ， 你 可 以 将 任意 文件 作为 输入 来 运行 任意 程序 。 这 一 切 是 怎么 
做 到 的 ?下面 的 框 列 出 了 几 种 可 以 让 你 尝试 的 方法 。 这 些 方法 不 会 在 
所 有 操作 系统 上 委 效 ， 也 不 能 对 所 有 输入 文件 疼 效 一 一 不 同 的 操作 系 
统 用 不 同 的 方式 启动 程序 ， 有 时 候 出 于 安全 考虑 ， 它 们 会 限制 输入 文 


件 的 选择 。 不 管 怎样 ， 我 强烈 建议 你 花 几 分 钟 在 电脑 上 试验 ， 以 确信 
你 钟爱 的 文字 处 理 程序 可 以 用 多 种 不 同 的 输入 文件 运行 。 


下 面 列举 三 种 用 stuff.txt 作 为 输入 文件 运行 Microsoft Word 软 件 
的 方法 : 

右键 点 击 stuff.txt 选 择 “ 打 开 方 式 ”， 选 择 Microsoft Word 。 

首先， 用 操作 系统 的 功能 在 桌面 上 放置 一 个 Microsoft Word 的 
快捷 方式 。 然 后 将 stuff.txt 拖 动 到 这 个 Microsoft Word 快 捷 方式 中 
去 。 

.直接 打开 Microsoft Word 软 件 ， 
令 ， 确 保 选 项 显示 “所 有 文件 ”>， 然 


选择 “文件 "菜单 的 “打开 ” 命 


择 stuff.txt 。 


D 
ES 


某 一 特定 文件 作为 输入 运行 一 个 程序 的 多 种 方法 。 
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和 是， 原则 上 你 能 用 


Microsoft Excel 将 “photo.jpg” 作 为 输入 运行 的 结果 。 输 出 虽 是 乱码 ， 但 重要 


任何 输入 运行 任意 程序 。 


很 显然 ， 如 果 使 用 程序 打开 本 非 其 能 处 理 的 文件 ， 你 会 得 到 相当 
出 人 意料 的 结果 。 在 上 图 中 ， 你 可 以 看 到 用 电子 表格 程序 Microsoft 
Excel 打 开 图 片 文件 “photo.jpg” 时 出 现 的 情景 。 这 个 例子 得 到 的 输出 是 
乱码 ， 毫 无 用 处 。 但 电子 表格 程序 的 确 运 行 了 ， 并 生成 了 一 些 输出 。 


上 面 的 例子 看 起 来 已 经 很 蕊 户 了 ， 但 我 们 要 更 加 狗 狂 一 点 。 你 应 
该 还 记得 ， 计 算 机 程序 本 号 就 作为 文件 存储 在 计算 机 硬盘 上 “。 通 党 ， 
这 些 程序 的 名 字 以 “.exe” 结 尾 ，“exe” 是 “executable”( 可 执行 ) 的 缩 
写 ， 表 示 你 能 “execute” (执行 ) 或 运行 程序 。 因 为 计算 机 程序 只 是 硬 
盘 上 的 文件 ， 我 们 可 以 将 一 个 计算 机 程序 作为 另 一 个 计算 机 程序 的 输 
入 。 比 如 ，Microsoft Word 程 序 在 计算 机 上 以 文件 “WINWORD.EXE” 存 
储 ， 通 过 将 文件 WINWORD.EXE 作 为 输入 来 运行 电子 表格 程序 ， 我 能 
得 到 如 下 图 中 所 示 的 乱码 。 
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用 Microsoft Excel 检 查 Microsoft Word。 当 Microsoft Excel 打 开 文 件 WINWORD.EXE， 得 到 的 结 


果 是 乱码 一 点 也 不 让 人 意外 。 


和 前 面 一 样 ， 值 得 亲自 试 一 试 这 个 实验 。 要 进行 这 一 实验 ， 你 需 
要 和 驳 找 到 文件 WINWORD.EXE。 在 我 的 计算 机 上 ，WINWORD.EXE 位 
于 文件 夹 “Ci:\Program Files\Microsoft Office\Office12” 内 ， 但 其 具体 位 置 
取决 于 你 使 用 的 操作 系统 以 及 安装 的 Microsoft Office 版 本 。 在 查看 这 
文件 夹 之 前 ， 你 也 许 还 需要 启用 查看 “隐藏 文件 ”的 功能 。 顺 便 提 一 
句 ， 你 可 以 用 任何 电子 表格 或 文字 处 理 程 序 进行 这 一 实验 (以 及 下 面 
的 一 个 实验 ) ， 和 党 试 并 不 一 定 要 用 Microsoft Office 。 


我 们 还 要 做 最 后 一 件 傻 事 。 如 果 用 一 个 计算 机 程序 自身 作为 输入 
来 运行 这 个 程序 呢 ? 比 如 ， 如 果 我 用 文件 WINWORD.EXE 作 为 输入 来 
运行 Microsoft Word 呢 ? 尝试 这 一 实验 很 容易 。 下 图 显示 了 我 在 计算 机 


上 试验 的 结果 。 和 之 前 的 几 个 例子 一 样 ， 程 序 运行 良好 ， 但 屏幕 上 的 
输出 绝 大 多 数 是 乱码 。 (自己 尝试 一 下 。) 


那么 ， 所 有 这 些 例子 想 表 达 什 么 ? 论述 的 目的 是 ， 让 你 能 对 一 些 
在 运行 程序 时 出 现 的 更 难 懂 的 事情 见怪 不 怪 。 现 在 ， 你 应 该 适应 这 三 
个 略 显 奇 怪 但 在 后 面 非常 重要 的 想法 了 。 第 一 ， 任 何 程序 可 以 将 任何 
文件 作为 输入 运行 ， 但 通 利 输出 结果 为 乱码 ， 除 非 输 入 文件 本 该 配合 
由 你 选择 运行 的 程序 。 第 二 ， 我 们 发 现 ， 计 算 机 程序 作为 文件 存储 在 
计算 机 磁 副 上 ， 因 此 一 个 程序 可 以 用 男 一 个 程序 作为 其 输入 文件 运 
行 。 第 三 ， 我 们 意识 到 ， 计 算 机 程序 能 将 其 自身 文件 作为 输入 运行 。 
到 目前 为 止 , 第 二 种 和 第 三 种 活动 的 结果 一 直 古 乱码 ， 但 我 们 将 在 下 
一 部 分 看 到 一 个 这 些 把 戏 最 终结 出 了 一 些 果实 的 迷人 例子 。 


! rLilThis program cannot be run in DOS 
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Microsoft Word 检 查 自 身 。 打 开 的 文档 是 文件 WINWORD.EXE， 即 你 点 击 Microsoft Word 时 实际 


运行 的 计算 机 程序 。 


有 些 程序 不 可 能 存在 


计算 机 在 执行 简单 指令 上 非常 棒 一 一 事实 上 ， 现 代 计 算 机 每 秒 能 
执行 数 十 亿 次 简单 指令 。 你 也 许 会 想 ， 任 何 任务 都 能 以 简单 、 精 确 的 


英语 描述 并 写成 一 个 计算 机 程序 ， 由 计算 机 执行 。 我 在 这 一 部 分 的 目 
标 是 说 服 你 与 之 相反 的 情况 为 真 : 有些 人 简单、 精确 的 英语 声明 确实 不 
可 能 写成 计算 机 程序 。 


一 些 简单 的 是 一 否 程序 (Yes-_No Program) 


为 让 这 一 部 分 的 内 容 尽 可 能 简单 ， 我 们 只 会 思考 一 种 非常 无 聊 的 
计算 机 程序 。 我 们 称 它们 为 “是 一 否 ” 程 序 ， 因 为 这 些 程序 唯一 能 做 的 
就 是 弹出 一 个 对 话 框 ， 对 话 框 的 内 容 要 么 是 单词 “yes”( 是 ) 或 单 
词 “no”( 否 ) 。 比 如 ， 我 在 几 分 钟 前 写 了 一 个 名 为 ProgramA.exe 的 计算 
机 程序 ， 这 个 程序 只 能 生成 下 列 对 话 框 : 


: 过 ProgramA. exe 国 |w)b 


yes 


注意 看 对 话 框 的 标题 栏 ， 你 能 看 到 生成 这 一 结果 的 程序 名 ProgramA.exe。 


我 还 写 了 另 一 个 名 为 ProgramB.exe 的 计算 机 程序 ， 其 输出 为 no” 而 
非 *yes”。 


F ProgrambB. exe | 癌 XxX 


ProgramA 和 ProgramB 都 非常 简单 一 一 事实 上 ， 简 单 到 不 需要 任何 
输入 。 (如 果 它 们 确实 接收 到 了 输入 ， 它 们 也 会 名 略 。) 换言之 , 它 
们 就 是 那些 不 管 给 予 任何 输入 ， 每 次 运行 都 表现 相同 的 程序 的 例子 。 


我 还 创造 了 一 个 名 为 SizeChecker.exe 的 程序 ， 它 是 这 些 是 一 否 程 序 
中 很 有 趣 的 例子 。 给 该 程序 输入 一 个 文件 ， 如 果 文 件 大 于 10 KB， 程 序 
就 输出 “yes"”， 反 之 输出 “no”。 如 果 右 键 点 击 一 个 50 M 的 视频 文件 〈 假 
设 是 mymovie.mpg) ， 选 择 “ 打 开 方 式 ”， 选 取 SizeCheckerexe， 你 就 会 
看 到 如 下 输出 : 


“SizeChecker. exe 遂 口 |X 


yes 


另外 ， 如 果 我 在 一 条 3KB 的 小 电子 邮件 消息 上 运行 同一 程序 〈 假 
设 是 myemailmsg) ， 输 出 自然 不 同 : 


sizeChecker. exe i XxX 


因此 ，SizeChecker.exe 也 是 有 时 输出 “yes”"， 有 时 输出 “no” 的 是 一 否 
程序 例子 。 


现在 思考 接 下 来 这 个 稍 有 不 同 的 程序 ， 我 们 称 之 为 NameSize.exe 。 
这 个 程序 会 检验 其 输入 文件 的 名 称 ， 如 采 文 件 名 只 有 一 个 字母 长 ， 
NameSize.exe 输 出 “yes”; 反之 输出 “no”。 这 个 程序 会 有 哪些 可 能 的 输 
出 ? 根据 定义 ， 所 有 输入 文件 的 名 称 都 至 少 有 一 个 字母 长 (否则 ， 文 
件 就 没有 名 称 ， 也 就 不 能 在 一 开始 选取 它 ) 。 因 此 ，NameSize.exe 会 一 
直 答 出 “yes”， 不 管 输入 是 什么 。 


顺便 说 一 句 ， 上 面 提 到 的 几 个 程序 是 用 其 他 程序 作为 输入 时 ， 不 
生成 乱码 的 首 批 程序 例子 。 比 如 ， 文 件 NameSize.exe 的 大 小 只 有 约 8 
KB。 因 此 ， 如 果 你 用 NameSize.exe 作 为 输入 运行 SizeCheckerexe， 输 出 
为 “no”《〈 因 为 NameSize.exe 不 超过 10 KB) 。 我 们 甚至 可 以 让 


SizeCheckerexe 在 目 身 上 运行 。 这 次 会 输出 “yes”， 因 为 SizeCheckerexe 
要 大 于 10 KB 一 一 事实 上 ， 约 为 12 KB。 类 似 的 ， 我 们 可 以 让 
NameSize.exe 用 上 自身 作为 输入 运行 ， 由 于 文件 名 “NameSize.exe” 包 含 不 
止 一 个 字母 ， 输 出 应 该 是 “yes”。 不 得 不 承认 ， 我 们 到 目前 为 止 讨 论 的 
所 有 是 一 否 程序 都 相当 无 聊 ， 但 理解 它们 的 行为 很 重要 ， 请 逐 行 查看 
下 面 的 表 ， 确 保 你 赞同 每 项 输出 。 


AlwaysYes.exe: 一 个 分 析 其 他 程序 的 是 一 否 程序 


ProgramA.exe | address-list.docx 
ProgramA.exe | ProgramA.exe 


ProgramB.exe address.-list.docx 


ProgramB.exe ProgramA.exe 
SizeChecker.exe | mymovie.mpg (50MB) 
SizeChecker.exe | myemail.msg (3KB) 
SizeChecker.exe | NameSize.exe (8KB) 
SizeChecker.exe | SizeChecker.exe (12KB) 
NameSize.exe mymovie.mpg 
NameSize.exe ProgramA.exe 


NameSize.exe Name9ize.eXe 


一 些 简 单 是 一 否 程序 的 输出 。 注 意 无 视 其 输入 一 直 输 出 “yes” 的 程序 (如 ProgramA.exe、 


NameSize.exe) 和 有 时 输出 “no”( 如 SizeChecker.exe) 或 一 直 输 出 “no” 的 程序 (如 


ProgramB.exe) 之 间 的 区 别 。 


现在 我 们 要 思考 一 些 更 有 趣 的 是 一 人 否 程序 。 我 们 将 要 研究 的 第 一 
个 程序 名 为 "AlwaysYes.exe”。 这 个 程序 会 检测 输入 文件 ， 如 果 输 入 文 
件 本 身 是 一 个 永远 输出 “yes” 的 是 一 否 程序 ， 则 AlwaysYes.exe 会 输 
出 “yes”。 反 之 ，AlwaysYes.exe 的 输出 为 “no”。 注 意 AlwaysYes.exe 能 完 
美 运行 任何 种 类 的 输入 文件 。 如 果 你 给 AlwaysYes.exe 的 输入 文件 不 是 
可 执行 程序 (假设 是 addresslist.docx) ， 程 序 会 输出 “no”。 如 果 你 给 
AlwaysYes.exe 的 输入 文件 是 可 执行 程序 (假设 是 WINWORD.EXE) ， 
程序 会 输出 “no”。 如 果 你 用 一 个 是 一 否 程 序 作 为 输入 ， 但 这 个 是 一 否 
程序 有 时 会 输出 “no”， 那 么 AlwaysYes.exe 会 输出 “no”。 只 有 在 你 输入 
一 个 不 管 输入 是 什么 永远 输出 “yes” 的 是 一 否 程序 时 ，AlwaysYes.exe 才 
会 输出 “yes”。 到 目前 为 止 ， 我 们 已 经 在 讨论 中 见 了 两 个 这 样 的 程序 例 
子 : ProgramA.exe 和 NameSize.exe。 下 表 总 结 了 AlwaysYes.exe 用 多 个 不 
同 输入 文件 时 的 输出 ， 包 括 运行 AlwaysYes.exe 自 身 的 情况 。 正 如 你 在 
表 中 最 后 一 行 所 看 到 的 ，AlwaysYes.exe 在 运行 自身 时 输出 “no”， 因 为 
AlwaysYes.exe 在 输入 一 些 文件 时 会 输出 “no”。 


AlwaysYes.exe outputs 


address-list.docx 
mymovie.mpg 
WINWORD.EXE 
ProgramA.exe 


ProgramB.exe 
NameSize.exe 
SizeChecker.exe 
Freezeexe 


AlwaysYes.exe 


AlwaysYes.exe 对 多 种 输入 的 输出 。 只 有 永远 输出 “yes” 的 是 一 否 程 序 才 会 让 AlwaysYes.exe 输 


出 “yes” 一 一 在 这 里 就 是 ProgramA.exe 和 NameSize.exe 。 


在 表 的 倒数 第 二 行 ， 你 也 许 注意 到 出 现 了 一 个 之 前 未 曾 出现 的 名 
为 Freeze.exe 的 程序 。Freeze.exe 是 一 款 程序 ， 是 做 计算 机 程序 最 令 人 讨 
厌 的 事情 之 一 : 它 会 “冻结 ” (不 管 输入 是 什么 ) 。 你 可 能 自己 经 历 


过 ， 当 一 个 视频 游戏 或 应 用 程序 看 起 来 锁定 (或 “冻结 ”) 了 ， 拒 绝对 
更 多 输入 做 出 啊 应 。 在 此 之 后 ， 你 唯一 的 选择 就 是 终止 程序 。 如 果 这 
还 不 奏效 ， 你 甚至 可 能 需要 关闭 电源 并 重启 。 (有 了 时 候 在 使 用 笔记 本 
电脑 时 ， 断 电 要 移 除 电 池 ! ) 计算 机 程序 冻结 的 原因 多 种 多 样 。 有 了 时 
是 因为 “ 死 锁 *"， 我 们 在 第 八 章 讨论 过 它 。 在 其 他 情况 中 ， 程 序 也 许 忙 
于 执行 一 项 永远 不 会 结束 的 计算 一 一 比如 ， 反 复 搜 索 一 块 从 未 真正 存 
在 的 数据 。 


不 管 怎样 ， 我 们 无 须 理解 有 关 冻 结 程序 的 细节 。 我 们 只 需 知道 
AlwaysYes.exe 在 给 出 这 么 一 个 程序 时 该 怎么 做 即 可 。 事 实 上 ， 
AlwaysYes.exe 的 定义 相当 仔细 ， 管 案 也 很 清楚 : AlwaysYes.exe 在 其 输 
入 水 远 输出 “yes” 时 输出 “yes”; 反之 则 输出 “no”。 因 此 ， 当 输入 是 像 
Freeze.exe 一 样 的 程序 时 ，AlwaysYes.exe 必 须 输 出 “no”， 这 也 是 我 们 在 
上 图 倒数 第 二 行 看 到 的 结果 。 


YesOnSelf.exe: 一 个 更 简单 的 AlwaysYes.exe 变 体 


你 也 许 已 经 想到 ，AlwaysYes.exe 是 一 个 相当 聪明 、 有 用 的 程序 ， 
因为 它 能 分 析 其 他 程序 并 预测 它们 的 输出 。 必 须要 承认 的 是 ， 我 并 未 
编写 这 一 程序 一 一 我 只 是 描述 了 在 我 必须 编写 它 的 情况 下 ， 它 会 如 何 
表现 。 现 在 我 要 开始 描述 另 一 个 名 为 YesOnSelf.exe 的 程序 。 这 个 程序 
和 AlwaysYes.exe 类 似 ， 但 更 向 单 。 与 输入 文件 永远 输出 “yes" 时 输 


出 “yes” 不 同 的 是 ， 只 有 输入 文件 在 运行 目 员 时 输出 “yes” 
YesOnSelf.exe 才 会 输出 *yes”; 反之 则 输出 “no”。 换 言 之 ， 如 果 我 将 
SizeCheckerexe 作 为 YesOnSelf.exe 的 输入 ， 那 么 YesOnSelf.exe 会 对 
SizeChecker.exe 进 行 一 些 分 析 ， 以 判定 SizeChecker.exe 在 将 目 身 作为 输 
入 运行 时 会 输出 什么 。 正 如 我 们 已 经 知道 的 ( 见 上 一 节 的 表 ) 
SizeChecker.exe 运 行 目 身 的 输出 为 “yes”。 因此，YesOnSelf.exe 运 行 
SizeCheckerexe 也 会 输出 “yes”。 你 可 以 使 用 相同 的 推理 得 出 
YesOnSelf.exe 运 行 其 他 多 种 输入 的 结果 。 注 意 ， 如 果 输 入 文件 不 是 一 
个 是 一 否 程序 ， 那 么 YesOnSelf.exe 会 自动 输出 “no”。 上 表 显 示 了 一 些 
YesOnSelf.exe 的 输出 一 一 请 尝试 验证 你 理解 了 表 中 每 一 行 ， 因 为 在 继 
续 往 下 读 之 前 ， 理 解 YesOnSelf.exe 的 行为 非常 重要 。 


YesOnSelf.exe outputs 


address.-list.docx 
mymovie.mpg 
WINWORD.EXE 
ProgramA.exe 
ProgramB.exe 
NameSize.exe 
SizeChecker.exe 


Freeze.exe 


AlwaysYes.exe 
YesOnSelf.exe 


YesOnSelf.exe 运 行 多 个 输入 的 输出 。 唯 一 生成 “yes” 的 输出 就 是 运行 自身 时 输出 “yes” 的 是 一 否 


程序 ， 即 ProgramA.exe、NameSize.exe 和 SizeChecker.exe。 表 中 最 后 一 行 有 点 神秘 ， 因 为 看 起 


来 哪 种 输出 都 正确 。 文 字 部 分 细致 地 讨论 了 这 一 情况 。 


我 们 要 多 注意 两 件 和 这 个 相当 有 趣 的 程序 YesOnSelf.exe 有 关 的 事 
情 。 第 一 ， 看 一 下 上 表 最 后 一 行 。YesOnSelf.exe 运 行 自 身 的 输出 应 该 
是 什么 ? 驻 运 的 是 ， 只 有 两 种 可 能 性 ， 因 此 我 们 逐个 思考 。 如 果 输 出 
是 “yes”， 我 们 知道 (根据 YesOnSelf.exe 的 定义 ) ，YesOnSelf.exe 在 运 
行 自 喘 时 应 输出 “yes”。 这 有 点 饶 生 ,但 如 果 你 仔细 推理 ， 你 会 发 现 所 
有 事情 都 完美 地 保持 一 致 ， 并 被 引导 着 得 出 “yes” 是 正确 答案 的 结论 。 


但 先 别 急 。 假 如 YesOnSelf.exe 运 行 自 身 的 输出 是 “no” 呢 ?这 意味 着 
(还 是 根据 YesOnSelf.exe 的 定义 ) YesOnSelf.exe 在 运行 自身 时 应 该 输 
出 “no”。 和 之 前 一 样 ， 这 一 声明 表现 出 完美 的 一 致 ! 似乎 YesOnSelf.exe 
能 选择 性 输出 。 只 要 其 坚持 目 己 的 选择 ， 它 的 答案 吏 会 正确 。 
YesOnSelf.exe 行 为 中 的 神秘 目 由 很 快 束 会 成 为 一 个 相当 巨大 的 冰山 之 
一 角 ， 但 目前 我 们 还 不 准备 更 深入 探讨 这 一 问题 。 


第 二 ， 我 并 没有 编写 略 显 复杂 的 AlwaysYes.exe 这 一 程序 。 我 所 做 
的 只 是 描述 其 行为 。 然 而 ， 请 注意 ， 如 有 果 假 设 我 确实 编写 了 
AlwaysYes.exe ， 那 么 创建 YesOnSelf.exe 就 会 很 容易 。 为 什么 ? 因为 
YesOnSelf.exe 要 比 AlwaysYes.exe 更 人 简单: YesOnSelf.exe 只 需 检 验 一 个 
可 能 的 输入 ， 而 非 所 有 可 能 的 输入 。 


AntiYesOnSelf.exe: YesOnSelf.exe 的 反面 


现在 休息 一 会 儿 ， 记 住 我 们 想 要 到 达 的 目标 。 本 章 的 目标 是 证 明 
查找 月 省 的 程序 不 可 能 存在 。 但 我 们 现在 的 目标 没 这 么 高 尚 。 我 们 只 
征 答 试 发 现 一 个 这 种 程序 不 可 能 存在 的 例子 。 这 将 是 朝 辣 我 们 最 终 目 
标的 一 块 踏 脚 石 ， 因 为 一 旦 了 解 如 何 证 明 某 个 特定 的 程序 不 可 能 存 
在 ， 束 可 以 合理 地 直接 将 相同 的 技巧 运用 在 裔 省 寻找 程序 上 。 好 消息 
征 ， 我 们 非常 接近 这 个 踏 脚 石 目标 。 我 们 将 再 多 研究 一 个 是 一 否 程序 
束 完 成 任务 了 。 


新 程序 被 称 为 “AntiYesOnSelf.exe”。 正 如 其 名 字 所 暗示 的 ， 这 个 程 
序 和 YesOnSelf.exe 非 常 相似 一 一 事实 上 ， 两 个 程序 一 模 一 样 ， 只 

出 池 反 了 。 如果 YesOnSelf.exe 对 某 个 特定 输入 输出 “yes”， 那 么 
AntiYesOnSelf.exe 会 对 同一 输入 输出 “no”。 如 果 YesOnSelf.exe 对 某 个 输 
入 输出 “no”，AntiYesOnSelf.exe 会 对 同一 输入 输出 “yes”。 


【是 输 


Y 
人 


无 论 输入 文件 是 否 是 一 个 是 一 否 程 序 ，AntiYesOnSelf.exe 都 会 


回答 这 一 问题 : 


输入 程序 在 目 喘 上 运行 时 是 否 输 出 “no”? 


党 


对 AntiYesOnSelf.exe 行 为 的 简单 描述 。 


尽管 这 对 完整 精确 地 定义 AntiYesOnSelf.exe 行 为 有 利 ， 但 更 细致 地 
说 明 其 行为 仍然 助 益 多 多 。 还 记得 YesOnSelf.exe 对 于 在 目 身 上 运行 时 


输 出 “yes” 的 输入 输出 “yes”， 反 之 输出 “no” 吧 。 此 ， 
AntiYesOnSelf.exe 对 于 在 目 身 上 运行 时 输出 “yes” 的 输入 输出 “no”， 反 之 
输出 “yes”。AntiYesOnSelf.exe 会 对 其 输入 问 下 列 问题 : “输入 文件 在 目 
身上 运行 时 是 不 是 不 会 输出 ‘yes’? ” 


不 得 不 承认 ， 对 AntiYesOnSelf.exe 的 描述 又 是 个 绕口令 。 你 也 许 会 
想 ， 换 种 说 法 “输入 文件 在 自 喘 上 运行 时 是 否 输出 mo” 要 简单 些 。 为 什 
么 这 么 问 不 正确 ? 为 什么 我 们 要 在 “不 输出 ‘yes’*” 上 鸣 唆 ， 而 不 用 更 位 
单 的 声明 “输出 ‘ho’”? 管 案 是 程序 有 时 会 做 输出 “yes” 或 “no”* 之 外 的 事 
情 。 因 此 ， 如 果 某 人 告诉 我 们 ， 某 个 特定 程序 不 输出 “yes”， 我 们 不 能 
自动 得 出 结论 它 会 输出 “no”。 比 如 ， 程 序 可 能 输出 乱码 ， 其 至 冻结 。 
不 过 ， 我 们 可 以 对 一 种 特殊 情况 得 出 一 个 更 强 的 结论 : 如 果 我 们 预先 
得 知 一 个 程序 为 是 一 否 程序 ， 那 么 我 们 就 知道 这 个 程序 永远 不 会 冻结 
或 生成 乱码 一 一 程序 永远 会 以 输出 “yes” 或 “no” 结 束 。 因 此 ， 对 于 是 一 
否 程序 而 言 ， 在 “不 输出 ‘yes*” 上 哆 唆 相 当 于 更 简单 的 声明 “输出 no’”。 


此 ， 最 终 我 们 能 对 AntiYesOnSelf.exe 的 行为 给 出 非常 简单 的 描 
述 。 不 管 输入 文件 是 不 是 一 个 是 一 否 程序 ，AntiYesOnSelf.exe 都 会 回答 
这 个 问题 : “输入 程序 在 目 身 上 运行 时 是 否 输出 mo'? ”对 
AntiYesOnSelf.exe 行 为 的 这 一 阅 释 在 后 面 非常 重要 ， 所 以 我 在 上 框 中 列 
由 


考虑 到 我 们 在 分 析 YesOnSelfexe 上 所 做 的 工作 ， 为 
AntiYesOnSelf.exe 制 作 一 张 输出 表 变 得 格外 容易 。 事 实 上 ， 我 们 可 以 直 
接 复 制 上 文 YesOnSelf.exe outputs 的 表 ， 将 所 有 “yes” 输 出 改 成 “mo”， 反 
之 亦 然 。 这 么 做 得 到 的 结果 就 是 上 面 这 张 表 。 和 前 面 一 样 ， 最 好 逐条 
审视 表 中 每 一 行 ， 确 认 你 同意 输出 栏 中 每 一 项 。 当 输入 文件 为 是 一 否 
程序 时 ， 你 可 以 用 前 页 框 中 的 简单 曾 释 ， 而 非 弄 懂 更 早 之 前 给 出 的 更 


复杂 的 解释 。 


AntiYesOnSelf.exe outputs 


address.-list.docx 
mymovie.mpg 
WINWORD.EXE 
ProgramA.exe 
ProgramB.exe 
NameSize.exe 
SizeChecker.exe 


Freeze.exe 


AlwaysYes.exe 
AntiYesOnSelf.exe 


AntiYesOnSelf.exe 运 行 多 个 输入 的 输出 。 根 据 定义 ，AntiYesOnSelf.exe 会 生成 YesOnSelf.exe 相 


反 的 答案 ， 因 此 这 张 表 一 一 除了 最 后 一 行 一 一 和 YesOnSelf.exe 的 一 样 ， 只 是 “yes” 输 出 换 成 


了 “no”， 反 之 亦 然 。 如 文中 讨论 的 一 样 ， 判 定 最 后 一 行 极其 困难 。 


你 能 从 表 中 最 后 一 行 看 出 ， 当 我 们 党 试 计算 AntiYesOnSelf.exe 在 目 
身上 运行 时 的 输出 时 ， 一 个 问题 产生 了 。 为 帮助 我 们 分 析 这 一 问题 ， 
让 我 们 进一步 简化 AntiYesOnSelf.exe 在 上 页 框 中 的 描述 ， 与 其 考虑 将 所 
有 可 能 的 是 一 否 程序 当 作 输 入 ， 我 们 将 集中 精力 于 AntiYesOnSelf.exe 将 
自身 作为 输入 运行 时 发 生 的 情况 。 因 此 ， 框 中 以 斜体 表示 的 问题 “输入 
程序 会 ......” 可 以 转述 为 “AntiYesOnSelf.exe 会 .…...” 一 一 因为 输入 程序 
即 AntiYesOnSelf.exe。 这 是 我 们 需要 的 最 终 阐 释 ， 因 此 它 也 在 下 面 框 中 
展示 。 


现在 我 们 准备 好 得 出 AntiYesOnSelf.exe 在 自身 上 运行 的 输出 。 输 出 
存在 两 种 可 能 性 (“yes” 和 “no”) ， 因 此 完成 这 一 问题 应 该 不 会 太 难 。 
我 们 将 逐一 处 理 每 个 例子 。 


无 论 输入 文件 是 否 是 一 个 是 一 否 程 序 ，AntiYesOnSelf.exe 都 会 


回答 这 一 问题 : 


AntiYesOnSelf.exe 在 上 自身 上 运行 时 是 否 输出 “no>? 


当 AntiYesOnSelf.exe 将 自身 作为 输入 时 对 其 行为 的 简单 描述 。 注 意 ， 这 个 框 只 是 上 文中 框 的 简 


化 版 ， 专 门 针 对 输入 文件 为 AntiYesOnSelf.exe 的 例子 。 


例 1 (输出 为 “yes”) : 如 果 输 出 为 “yes”"， 那 么 对 框 中 粗 体 问题 的 
答案 吏 是 “no”。 但 根据 定义 ， 粗 体 问题 的 答案 是 AntiYesOnSelf.exe 的 输 


出 (再 读 一 遍 框 中 内 容 以 让 自己 确信 ) 一 一 因此 ， 输 出 必 为 "no”。 总 
之 ， 我 们 刚刚 证 明了 如 采 输 出 为 "yes"， 那 么 输出 为 “no”。 不 可 能 ! 事 
实 上 ， 我 们 遇 到 了 一 处 矛盾 。 (如 果 你 对 反 证 法 技巧 不 熟悉 ， 现 在 是 
回顾 本 章 先 前 对 这 一 主题 讨论 的 好 时 机 。 我 们 会 在 下 面 几 页 反复 用 到 
这 一 技巧 。) 因为 我 们 得 到 了 一 处 矛盾 ， 我 们 对 输出 是 “yes” 的 假设 必 
然 不 成 立 。 我 们 已 经 证 明 ，AntiYesOnSelf.exe 在 自身 上 运行 时 的 输出 不 
可 能 为 “yes”。 让 我 们 转 同 男 一 种 可 能 性 。 


例 2 (输出 为 “mo”) : 如 果 输 出 为 “no”， 那 么 对 框 中 粗 体 问题 的 答 
案 束 是 “yes”。 但 和 例 1 一 样 ， 根 据 定 义 ， 粗 体 问题 的 答案 是 
AntiYesOnSelf.exe 的 输出 一 一 因此 ， 输 出 必须 为 “yes”。 换 言 之 ， 我 们 
刚刚 证 明了 如 果 输 出 为 “no”， 那 么 输出 为 “yes”。 和 上 例 一 样 ， 我 们 得 
到 了 一 处 矛盾 ， 因 此 我 们 对 输出 是 “no* 的 假设 必然 不 成 立 。 我 们 已 经 
证 明 ，AntiYesOnSelf.exe 在 自 机 上 运行 时 的 输出 不 可 能 为 “no”。 


现在 怎么 办 ? 我 们 已 经 排除 了 AntiYesOnSelf.exe 在 自身 上 运行 时 仅 
有 的 两 种 可 能 输出 。 这 同样 是 一 个 秘 盾 : AntiYesOnSelf.exe 被 定义 为 一 
个 是 一 否 问题 一 一 一 个 永远 以 生成 * 是 ?或 “人 否 " 两 个 输出 之 一 结束 的 程 
序 。 然 而 ， 我 们 刚刚 展示 了 一 个 特殊 输入 ， 而 AntiYesOnSelf.exe 用 这 个 
输入 运行 并 不 生成 任 一 上 述 输出 ! 这 一 矛盾 暗示 我 们 最 初 的 假设 为 
假 : 因此 ， 并 不 可 能 编写 一 个 行为 和 AntiYesOnSelf.exe 相 像 的 是 一 人 否 软 
件 澡 


现在 你 应 该 知道 了 ， 为 什么 我 非常 小 心地 坦然 承认 自己 并 未 编写 
过 AlwaysYes.exe、YesOn-Self.exe 或 AntiYesOnSelf.exe 中 任何 一 个 。 我 
所 做 的 只 是 描述 如 有 果 我 确实 编写 了 它们 ， 这 些 程序 会 如 何 表现 。 在 上 
一 段 中 ， 我 们 使 用 了 反 证 法 展示 AntiYesOnSelf.exe 不 可 能 存在 。 但 我 们 
能 证 明 更 多 : AlwaysYes.exe 和 YesOnSelf.exe 也 不 可 能 存在 ! 为 什么 ? 
你 应 该 能 猜 到 ， 关 键 工 具 还 是 反 证 法 。 回 忆 我 们 在 上 文 讨 论 如 果 
AlwaysYes.exe 存在 时 的 情景 ， 对 讨论 过 程 稍 作 修 改 并 得 出 
YesOnSelf.exe 是 否 存在 的 答案 应 该 会 很 容易 。 而 如 果 YesOnSelf.exe 存 
在 ， 那 么 得 出 AntiYesOnSelf.exe 是 否 存在 的 答案 也 会 极其 容易 ， 因 为 我 
们 只 须 逆转 输出 即 可 (将 “no” 换 成 “yes”"， 反 之 亦 然 ;。 总 之 ， 如 果 
AlwaysYes.exe 存 在 ， 那 么 AntiYesOnSelf.exe 也 存在 。 但 我 们 已 经 知道 
AntiYesOnSelf.exe 不 可 能 存在 ， 因 此 AlwaysYes.exe 也 不 可 能 存在 。 同 样 
的 论点 也 显示 YesOnSelf.exe 不 可 能 存在 。 


记 住 ， 这 整个 部 分 只 是 一 块 踏 脚 石 ， 我 们 的 最 终 目 标 是 证 明 般 涡 
寻找 程序 不 可 能 存在 。 本 部 分 更 适中 的 目标 是 举 一 些 不 可 能 存在 的 程 
序 的 例子 。 我 们 已 经 通过 检验 三 个 不 同 的 程序 达到 了 这 一 目标 ， 那 三 
个 程序 没有 一 个 可 能 存在 。 在 这 三 个 程序 中 ， 最 有 趣 的 要 数 
AlwaysYes.exe。 为 两 个 则 相当 乏味 ， 这 两 个 例子 主要 讲 以 目 映 为 输入 
运行 的 程序 的 行为 。 另 一 方面 ，AlwaysYes.exe 是 个 非常 强大 的 程序 ， 
因为 只 要 它 存 在 ， 就 能 分 析 其 他 任 一 程序 ， 并 告诉 我 们 那个 程序 是 否 


水 远 会 输出 “yes”。 但 我 们 现在 已 经 知道 ， 没 人 能 编写 出 如 此 聪明 、 有 
用 的 程序 。 


发 现 朋 并 的 不 可 能 性 


我 们 终于 准备 好 开始 探讨 一 个 程序 是 否 存在 的 证 据 ， 这 个 程序 能 
成 功 分 析 其 他 程序 并 判定 它们 有 是否 会 衣 溃 :具体 来 说 ， 我 们 要 证 明 这 
样 一 个 程序 不 可 能 存在 。 在 读 完 上 面 儿 页 后 ， 你 也 许 猜 到 了 我 们 会 用 
反 证 法 。 我 们 一 开始 会 假设 存在 这 样 一 个 程序 ， 有些 名 为 CanCrash.exe 
的 程序 能 分 析 其 他 程序 并 判定 它们 是 否 会 月 并。 在 对 CanCrash.exe 做 一 
些 奇怪 、 神 秘 、 令 人 高 兴 的 事情 后 ， 我 们 会 碰 到 一 处 矛盾 。 


TroubleMaker, exe 


TroubleMaker.exe has encountered a problem and needs to i 
close. We are sorry for the inconvenience. | 


fyou were inthe middle of something, the information you were working on might be 
lost. 


Please tell Microsoft about this problem. 


We have created an error reportthat you can send to us, We willtreatthis 
reportas confidentia}l and enonymous. 


To see what deta this error report contains, click here, 


Debug | Send Error Report | Dont Send 局 


某 种 操作 系统 崩溃 后 的 结果 。 不 同 的 操作 系统 以 不 同方 式 处 理 崩 溃 ， 但 我 们 在 遇 到 崩溃 时 都 知 


道 。 这 个 故意 编写 出 来 的 TroubleMaker.exe 会 导致 朋 江 ， 证 明 故 意 导致 月 演 很 容易 实现 。 


证 明 过 程 中 有 一 步 要 求 我 们 更 改 一 个 运行 民 好 的 程序 ， 让 程序 在 
特定 情况 下 朋 冲 。 我 们 如 何 做 到 这 件 事 ? 事实 上 ， 这 件 事 很 容易 。 程 
序 裔 省 的 原因 很 多 。 其 中 一 种 较为 常见 的 原因 是 程序 尝试 除 以 零 。 在 
数学 中 ， 用 任何 数 除 以 零 得 到 的 结果 都 是 “未 定义 ” (undefined) 。 在 
计算 机 中 ,，“ 未 定义 ”是 个 严重 错误 ， 程 序 不 能 继续 就 会 朋 溃 。 因 此 ， 
让 程序 故意 有 衣 江 的 一 种 简单 方法 是 ， 在 程序 中 插入 儿 段 会 让 程序 除 以 
零 的 多 余 指令 。 事 实 上 ， 这 也 正 旦 我 在 上 多 列举 TroubleMakerexe 例 子 
的 原因 。 


现在 我 们 开始 证 明 裔 省 发 现 程序 不 可 能 性 的 主要 过 程 。 下 图 总 结 
了 论证 流 。 我 们 一 开始 假设 存在 是 一 人 否 程序 CanCrash.exe， 如 条 作为 输 
入 的 程序 会 在 某 种 情况 下 有 崩 尝 ，CanCrash.exe 束 会 输出 “yes” 并 结束 ; 如 
果 输 入 程序 永 不 会 月 闹 ， 则 CanCrash.exe 就 会 输出 “no” 并 结束 。 


程序 名 程序 行为 


- 如 里 输入 能 崩溃 ， 输 出 yes 
CanCrashexe 。。”- 如 果 输 入 从 不 崩 潢 ， 输 出 no 


z - 如 果 输 入 能 前 注 ， 山 汪 
CanCrashWeird,exe =- 如 果 输 入 从 不 月 潢 ， 输 出 no 


| 


CrashOnSelf,exe 


- 如 果 输 入 在 自身 上 运行 时 其 溃 ， 戎 汪 


~ 如 果 输入 在 自身 上 运行 时 不 崩 江 ， 
输出 no 
- 如 果 输 入 在 自身 上 运行 时 济济 ， 输 出 yes 


AntiCrashOngSelf,exe 
- 如 果 输 入 在 自身 上 运行 时 不 崩 油 ， 崩 淆 


一 条 证 明 四 个 骨 溃 侦 测 程序 不 可 能 存在 的 序列 。 最 后 一 个 程序 AntiCrashOnSelf.exe 很 显然 不 可 


能 ， 因 为 它 在 自身 上 运行 时 会 产生 矛盾 。 然 而 ， 每 个 程序 都 能 通过 对 上 一 个 程序 作出 小 改变 轻 


易 得 到 〈 如 箭头 所 示 ) 。 因 此 ， 这 四 个 程序 都 不 可 能 存在 。 


现在 我 们 对 CanCrash.exe 做 些 诡异 的 改变 : 和 输出 “yes” 不 同 的 是 ， 
我 们 会 让 CanCrash.exe 朋 溃 。 (正如 上 面 所 讨论 的 ， 很 容易 通过 故意 除 
以 零 做 到 这 一 点 。) 让 我 们 称 改变 后 的 程序 为 CanCrashWeird.exe 。 
此 ， 如 果 输 入 会 月 演 ， 那 么 CanCrashWeird.exe 这 个 程序 也 会 故意 骨 潢 
(形成 的 对 话 框 外 观 类 似 于 上 图 ) ， 如 果 输 入 永 不 会 般 溃 ， 则 


CanCrashWeird.exe 会 输出 “no”。 


图 中 显示 的 下 一 步 是 将 CanCrashWeird.exe 转 换 成 一 个 更 模糊 的 程 
序 ， 我 们 将 其 称 为 CrashOnSelf.exe。 这 个 程序 和 上 一 部 分 的 
YesOnSelf.exe 一 样 ， 只 关注 程序 在 将 自身 作为 输入 时 运行 的 表现 。 特 
别 要 说 明 的 是 ，CrashOnSelf.exe 会 检测 其 输入 程序 ， 如 果 输 入 程序 能 在 
自身 上 运行 ， 则 CrashOnSelf.exe 会 故意 朋 误 。 反 之 ，CrashOnSelf.exe 会 


输出 “no”。 注 意 ， 从 CanCrashWeird.exe 得 到 CrashOnSelf.exe 很 容易 : 这 
一 过 程 和 我 们 在 第 上 文 讨论 的 将 AlwaysYes.exe 转 换 成 YesOnSelf.exe 的 
过 程 一 样 。 


图 中 四 个 程序 序列 的 最 后 一 步 就 是 将 CrashOnSelf.exe 转 换 成 
AntiCrashOnSelf.exe。 这 简单 的 一 步 违 背 了 程序 的 行为 :如果 其 输入 在 


目 身 上 运行 时 毅 误 ，AntiCrashOnSelf.exe 输 出 “yes”。 但 如 果 输 入 在 目 寻 
上 运行 时 不 对 溃 ，AntiCrashOnSelf.exe 就 会 故意 摇 溃 。 


现在 我 们 抵达 了 生成 一 处 矛盾 的 地 方 。AntiCrashOnSelf.exe 将 自己 
作为 输入 运行 时 会 输出 什么 ? 根据 其 自身 的 描述 ， 如 果 输 入 有 衣 湿 ， 
AntiCrashOnSelf.exe 就 会 输出 “yes”。 (了 矛盾 ， 为 如 果 
AntiCrashOnSelf.exe 已 经 月 尝 ， 它 就 不 能 成 功 输出 “yes” 并 结束 。) 还 是 
根据 其 自身 的 接 述 ， 如 果 输 入 不 有 衣 洲 ， 则 AntiCrashOnSelf.exe 应 骨 浇 
一 一 这 一 点 也 目 相 矛盾 。 我 们 已 经 排除 了 AntiCrashOnSelf.exe 两 种 可 能 
的 行为 ， 这 也 意味 着 AntiCrashOnSelf.exe 一 开始 就 不 可 能 存在 。 


最 后 ， 我 们 可 以 用 上 页 图 中 显示 的 转换 链 证 明 CanCrash.exe 也 不 可 
能 存在 。 如 果 它 确实 存在 ， 我 们 就 能 按 图 中 箭头 所 示 将 其 转换 成 
但 我 们 已 经 证 明 AntiCrashOnSelf.exe 不 可 能 存 
在 。 这 是 矛盾 之 处 ， 因 此 我 们 假设 CanCrash.exe 存 在 必 为 假 。 


AntiCrashOnSelf.exe 


停机 问题 和 不 可 判定 性 


这 就 对 我 们 经 历 计 算 机 科学 中 最 成 熟 、 最 伟大 的 问题 之 一 进行 了 
总 结 。 我 们 已 经 证 明 ， 绝 对 不 可 能 有 人 能 编写 出 一 个 像 CanCrash.exe 这 
样 的 程序 : 分 析 其 他 程序 并 辨认 程序 中 可 能 导致 其 朋 溃 的 所 有 可 能 漏 
洞 。 


事实 上 ， 当 理论 计算 机 科学 创始 人 阿兰 :图 灵 首 次 于 20 世 纪 30 年 代 
证 明 一 个 像 这 样 的 结果 时 ， 他 对 漏洞 或 月 溃 完 全 不 天 心 。 和 毕竟， 当时 
还 没有 电子 计算 机 。 相 反 ， 图 灵 对 一 个 已 有 计算 机 程序 最 终 能 否 生 成 
案 很 感 兴趣 。 一 个 联系 紧密 的 问题 是 : 一 个 已 有 计算 机 程序 是 否 会 
结束 一 一 或 者 说 它 是 否 会 永远 计算 下 去 ， 而 不 生成 一 个 答案 ? 这 个 已 
有 计算 机 程序 最 终 是 否 会 结束 或 “停止 ?的 问题 就 是 著名 的 停机 问题 
(the halting problem) 。 图 灵 的 伟大 成 就 在 于 ， 计 算 机 科学 家 称 图 灵 从 
停机 问题 得 到 的 变 体 问题 “不 可 判定 ”。 不 可 判定 问题 指 不 能 通过 编写 
计算 机 程序 解决 的 问题 。 因 此 ， 另 一 种 表述 图 灵 结 果 的 方式 是 : 你 不 
能 编写 一 个 名 为 AlwaysHalts.exe， 输 入 永远 停止 时 输出 “yes”， 反 之 输 
出 “no” 的 计算 机 程序 。 


从 这 个 角度 看 ， 集 机 问题 和 本 章 处 理 的 问题 非常 相似 ， 我 们 可 以 
把 本 章 人 处理 的 问题 称 为 崩溃 问题 。 我 们 证 明了 崩溃 问题 的 不 可 判定 
性 ， 但 你 基本 上 可 以 使 用 相同 技巧 证 明 停 机 问题 也 不 可 判定 。 而 且 ， 
正如 你 所 猜测 的 ， 计 算 机 科学 还 有 许多 其 他 问题 不 可 判定 。 


不 可 能 程序 的 应 用 有 哪些 ? 


我 收 孙 这 一 章 是 故意 作为 先前 章 万 的 对 照 。 前 面 每 一 章 都 捍卫 了 
一 个 绝 佳 思想 ， 每 个 思想 都 会 让 计算 机 更 强大 ， 对 人 类 更 有 用 。 在 本 
章 ， 我 们 见识 了 计算 机 最 基础 的 限制 之 一 。 我 们 见识 到 ， 有 些 问题 根 


能 通过 计算 机 解决 ， 不 管 计 算 机 有 多 强大 或 人 类 程序 员 有 多 聪 
明 。 这 些 不 可 判定 问题 包括 潜在 的 有 用 任务 ， 如 分 析 其 他 程序 以 发 现 
是 否 会 月 清 。 


这 一 奇怪 的 事实 一 一 有 时 甚至 先 监 一 一 有 什么 影响 ? 不 可 判定 问 
题 的 存在 会 影响 我 们 在 实际 中 使 用 计算 机 吗 ? 人 类 在 人 脑 中 进行 的 计 
算 呢 ， 人 脑 也 不 能 处 理 不 可 判定 问题 吗 ? 


不 可 判定 性 和 计算 机 使 用 


让 我 们 首先 来 探讨 一 下 不 可 判定 性 对 计算 机 使 用 的 实际 影响 。 答 
案 很 简短 : 不 ， 不 可 判定 性 对 计算 的 日 常 实践 没有 太 大 影响 。 原 因 有 
两 个 。 第 一 ， 不 可 判定 性 只 关注 计算 机 程序 能 和 否 生 成 答案 ， 并 不 考虑 
我 们 需要 等 答案 多 久 。 然 而 ， 在 实践 中 ， 效 率 问 题 (也 就 是 你 必须 等 
答案 多 久 ) 极其 重要 。 有 许多 可 判定 任务 还 没有 高 效 算法 。 其 中 最 著 
名 的 要 数 旅 行商 问题 (Traveling Salesman Problem) ， 简 称 为 TSP 。 
TSP 用 现代 术语 表述 如 下 : 假设 你 必须 飞 往 很 多 城市 (假设 是 20 个 或 30 
个 或 100 个 ) 。 你 应 该 采用 哪 种 顺序 访问 城市 才能 让 飞行 费用 最 少 ? 我 
们 知道 这 个 问题 是 可 判定 的 一 一 事实 上 ， 只 要 少量 经 验 的 新 手 程序 员 
就 能 编写 一 个 计算 机 程序 寻找 通过 这 些 城 市 最 便宜 的 航线 。 问 题 是 程 
序 可 能 要 花 数 百 万 年 时 间 来 完成 这 项 工作 。 在 实践 中 ， 这 并 不 够 好 。 
因此 ， 问 题 可 判定 这 一 事实 并 不 意味 着 我 们 可 以 在 实际 中 解决 它 。 


不 可 判定 性 实际 效果 有 限 的 第 二 个 原因 是 : 我 们 在 大 部 分 时 间 里 
都 能 很 好 地 解决 不 可 判定 问题 。 本 章 的 主要 例子 就 对 此 进行 了 很 好 的 
展示 。 我 们 按照 一 个 详尽 的 论证 过 程 证 明 ， 没 有 计算 机 程序 能 发 现 所 
有 计算 机 程序 中 所 有 的 漏洞 。 但 我 们 仍然 能 尝试 编写 一 个 漏洞 发 现 程 
序 ， 希望 其 发 现 大 多 数 计算 机 程序 中 绝 大 多 数 漏 洞 。 事 实 上 ， 这 是 计 
算 机 科学 中 一 个 非常 活路 的 研究 领域 。 我 们 在 过 去 几 十 年 所 见 到 的 软 
件 可 靠 性 提升 部 分 得 益 于 月 省 发 现 程序 的 进步 。 因 此 ， 通 常 能 为 不 可 
判定 问题 找到 非常 有 用 的 部 分 解决 方案 。 


不 可 判定 性 和 人 脑 


不 可 判定 问题 的 存在 对 人 类 思考 过 程 有 影响 吗 ? 这 一 问题 会 直接 
引出 哲学 中 一 些 高 深 的 经 典 问题 ， 如 意识 的 定义 ， 理 智和 大 脑 的 区 别 
等 。 不 管 坚 样 ， 我 们 对 一 件 事 很 清 苞 : 如 琳 你 相信 人 脑 在 原则 上 能 被 
计算 机 模拟 ， 那 么 人 脑 束 会 和 计算 机 受 相 同 的 限制 。 换 言 之 ， 会 存在 
人 脑 无 法 解决 的 问题 一 一 不 管 这 个 人 脑 有 多 聪明 或 经 过 多 么 民 好 的 训 
练 。 这 一 结论 紧 随 本 章 主要 管 案 之 后 出 现 。 如 果 人 脑 能 被 计算 机 程序 
模拟 ， 而 人 脑 能 解决 不 可 判定 问题 ， 那 么 我 们 也 可 以 用 计算 机 模拟 人 
脑 解决 不 可 判定 问题 一 一 这 与 计算 机 程序 不 能 解决 不 可 判定 问题 的 事 
实 相 矛盾 。 


当然 ,我们 是 否 能 让 计算 机 精确 模拟 人 脑 的 问题 还 远 未 解决 。 从 
科学 观 挟 来 看 ， 人 脑 和 计算 机 之 间 似 乎 没有 什么 基本 壁 仅 ， 因 为 化 学 


和 电子 信号 在 人 脑 中 传输 的 低级 细 市 很 好 理解 。 为 外， 多 种 哲学 论据 
上 暗示， 人 脑 创 造 * 理 智 " 的 物理 过 程 在 性 质 上 与 计算 机 能 模拟 的 任何 物 
理 系统 有 所 不 同 。 这 些 哲 学 论据 形式 多 样 ， 基 于 我 们 的 目 省 和 直觉 能 
力 ， 或 对 灵性 的 退 求 。 


这 个 问题 与 阿兰 :图 灵 在 1937 年 发 表 的 有 关 不 可 判定 性 的 论文 之 间 
有 一 段 迷人 的 联系 。 这 篇 论文 被 许多 人 视 为 让 计算 机 成 为 一 门 学 科 的 
基石 。 不 泣 的 是， 这 篇 论文 的 标题 相当 模糊 : 标题 以 听 起 来 很 乏味 的 


短语 “天 于 可 计算 数字 ...... ” (On computable numbers) 开头 ， 结 尾 却 
> 及 判定 问题 的 应 用 ” (with an application to the 


Entscheidungsproblem) 夏 然而 止 。 (我 们 在 这 里 不 会 集中 讨论 标题 的 
第 二 部 分 ! ) 在 20 世 纪 30 年 代 ，“computer”( 计 算 机 ) 这 个 单词 的 意义 
和 现在 完全 不 同 。 对 于 图 灵 来 说 ,一 台 “ 计 算 机 ” 束 是 一 个 人 ， 用 馈 笔 
和 纸 做 些 算术 。 因 此 ， 图 灵 论 文 标题 中 的 “可 计算 数字 ?原则 上 是 能 被 
人 计算 的 数字 。 但 为 辅助 他 的 论据 ， 图 灵 描 述 了 一 种 同样 能 计算 的 特 
殊 机 器 (对 于 图 灵 而 言 ， 一 台 “ 机 器 ”就是 我 们 所 称 的 “计算 机 ”) 。 论 文 
部 分 内 容 则 在 展示 特定 计算 不 可 能 由 这 些 机 颖 执行 一 一 这 就 是 我 们 已 
经 细致 讨论 过 的 不 可 判定 性 论证 。 但 同一 论文 的 另 一 部 分 提出 了 一 个 
细致 是 有 说 服 力 的 论据 ， 图 灵 的 “机 器 ”( 请 当 作 计 算 机 来 读 ) 能 执行 
由 “计算 机 ”( 请 当 作 人 来 读 ) 执行 的 任何 计算 。 


你 也 许 开始 能 理解 为 何 共 大 斤 述 图 灵 “ 天 于 可 计算 数 子 .…...” 论 文 
潜在 本 质 很 困难 了 。 这 篇 论文 不 仅 定 义 及 解决 了 计算 机 科学 中 一 些 最 
基本 的 问题 ， 还 深入 哲学 领域 ， 举 出 了 一 个 具有 说 服 力 的 例子 ， 表 明 
人 类 思考 过 程 可 以 被 计算 机 模拟 。 ( 记 住 ， 当 时 计算 机 还 没有 被 发 
明 ! ) 在 现代 哲学 用 语 中 ， 认 为 所 有 计算 机 (还 有 可 能 包括 人 ) 具有 
相同 计算 能 力 的 想法 以 印 奇 一 图 灵 论 题 (Church-Turing thesis) 而 闻 
名。 这 一 名 称 同时 各 阿 兰 : 图 灵 和 阿 隆 佐 : 邱 奇 致敬 。 阿 隆 佐 : 苑 奇 (之 前 
提 到 过 ) 单独 发 现 了 不 可 判定 问题 的 存在 。 事 实 上 ， 艺 奇 比 图 灵 早 几 
个 月 发 表 自 己 的 成 果 ， 但 印 奇 的 公式 更 为 抽象 ， 且 并 未 详尽 提 及 由 机 
器 执行 的 计算 。 


对 邢 奇 一 图 灵 论 题 有 效 性 的 争论 不 断 升 温 。 但 如 有 果 按 照 最 强 版 本 
的 即 奇 一 图 灵 论 题 所 持 有 的 观点 ， 那 么 并 非 只 有 计算 机 同 不 可 判定 性 
限制 俯首 称臣 。 同 样 的 限制 不 仅 适 用 于 我 们 指 尖 的 精灵 ， 而 且 也 适用 
于 精灵 背后 的 精灵 : 我 们 的 理智 。 


第 十 一 章 


结论 


一 一 更 多 在 你 指 尖 的 精灵 


我 们 只 能 望 见 前 方 不 远 处 ， 但 我 们 能 看 到 有 许多 事情 需要 完成 。 


《计算 机 器 与 智能 》，1950 年 


很 笠 运 ， 我 于 1991 年 参加 了 伟大 理论 物理 学 家 史 带 分 .霍金 
(Stephen Hawking) 举行 的 公开 演讲 。 在 这 场 名 为 “宇宙 未 来 ”(The 
Future of the Universe) 的 宏大 演讲 期 间 ， 霍 金 信心 满 满 地 预测 ， 字 宙 
至 少 还 会 膨胀 100 亿 年 。 他 还 扮 着 音 相 补充 道 : “ 当 我 的 观点 被 证 明 错 
误 时 ， 我 应 该 不 在 了 。” 对 我 来 说 ， 不 驻 的 是 ， 有 关 计 算 机 科学 的 预测 
并 没有 宇宙 学 家 能 得 到 的 100 亿 年 保质 期 。 我 做 的 任何 预测 都 有 可 能 在 
有 生 之 年 被 反驳 。 


但 这 不 应 该 阻止 我 们 思考 计算 机 伟大 思想 的 未 来 。 我 们 探索 过 的 
伟大 算法 会 永远 “伟大 ” 吗 ? 其 中 一 些 会 过 时 吗 ? 会 有 新 的 伟大 算法 出 
现 吗 ? 要 回答 这 些 问 题 ， 我 们 需要 更 多 地 像 历史 学 家 而 非 宇 宙 学 家 一 
样 思 考 。 这 让 我 想起 了 许多 年 前 的 男 一 次 经 验 ， 在 电视 中 观看 由 备 受 
争议 的 牛津 知名 历史 学 家 A.J.P. 泰 勒 所 做 的 一 些 演讲 。 在 那个 系列 演讲 
末尾 ， 泰 勒 直 接 回 答 了 会 否 有 第 三 次 世界 大 战 的 问题 。 他 认为 答案 
为 “是 ”"， 因 为 人 类 很 有 可 能 “在 未 来 像 过 去 所 做 过 的 一 样 行事 ”。 


因此 ， 让 我 们 跟随 A.JP' 泰 勒 的 领导 ， 回 历史 的 宏大 鞠躬 。 本 书 描 
述 的 伟大 算法 得 目 贯穿 20 世 纪 的 事件 及 发 明 。 似 乎 假设 21 世 纪 以 类 似 
步伐 前 进 很 合理 ， 每 隔 20 或 30 年 承 有 一 类 新 算法 靳 露头 角 。 在 一 些 情 
况 中 ， 这 些 算法 会 具备 惊人 的 原创 性 ， 是 科学 家 们 梦 肢 以 求 的 全 新 技 
术 。 公 钥 加 密 和 相关 的 数字 签名 算法 束 是 这 类 算法 的 例子 。 在 其 他 情 
况 中 ， 算 法 也 许 已 经 在 实验 社区 存在 了 一 段 时 间 ， 等 得 借助 合适 的 新 


技术 漳 流 让 它们 得 到 广泛 应 用 。 索 引 和 排名 的 搜索 算法 就 属于 这 类 : 
类 似 算法 在 名 为 信息 检索 的 领域 存在 了 多 年 ， 但 网 络 搜 索 现象 让 这 些 
算法 变 得 “伟大 ”一 一 在 普通 计算 机 用 户 日 党 使 用 的 意义 上 。 当 然 ， 这 
些 算法 为 自己 的 新 应 用 而 进化 ，PageRank 算 法 就 是 个 好 例子 。 


注意 ， 新 技术 的 出 现 并 不 一 定 会 导致 新 算法 产生 。 想 想 笔 记 本 电 
脑 在 20 世 纪 80 年 代 及 90 年 代 的 显著 增长 。 通 过 极 大 增加 可 访问 性 和 便 
携 性 ， 笔 记 本 电脑 草 命 化 了 人 们 使 用 计算 机 的 方式 。 笔 记 本 电脑 还 引 
发 了 多 个 领域 极其 巨大 的 进步 ， 如 屏幕 技术 和 电池 管理 技术 。 但 照 我 
看 ， 目 笔记 本 电脑 单 命 以 来 再 没有 伟大 算法 出 现 。 相 反 ， 互 联网 的 出 
现 束 古 一 项 导致 许多 伟大 算法 出 现 的 技术 : 互联 网 通过 提供 搜索 引擎 
能 存在 的 基础 架构 ， 让 索引 和 排名 算法 得 以 跻 映 伟大 算法 行列 。 


因此 ， 尽 管 技 术 章 新 不 可 置疑 的 加 速 继续 在 我 们 周围 出 现 ， 但 并 
不 能 保证 新 的 伟大 算法 的 出 现 。 事 实 上 ， 相 反方 向 上 有 一 种 强大 的 历 
史 力 量 在 作用 ， 蜡 示 算 法 创新 的 步伐 将 在 未 来 减 慢 。 我 说 的 是 计算 机 
科学 作为 一 门 科学 学 科 开 始 成 熟 。 同 物理 学 、 数 学 和 化 学 等 领域 相 
比 ， 计 算 机 科学 非常 年 轻 ， 它 于 20 世 纪 30 年 代 发 端 * 因此 ，20 世 纪 发 
现 的 伟大 算法 也 许 已 经 是 唾 手 可 得 的 硕 采 ， 在 未 来 发 现 广 泛 应 用 的 精 
巧 算法 将 变 得 越 来 越 困 难 。 


因此 ， 我 们 有 两 个 相互 竞争 的 效果 : 新 技术 提供 的 新 活动 
(niche) 时 常 为 新 算法 提供 空间 ， 而 该 领域 的 逐渐 成 熟 会 缩小 这 些 机 


会 。 总 之 ， 我 倾 问 于 认为 这 两 种 效果 会 彼此 中 和 ， 让 未 来 新 的 伟大 算 
法 缓慢 但 稳定 地 出 现 。 


一 些 可 能 的 伟大 算法 


当然 ， 一些 新 的 伟大 算法 会 以 完全 出 人 意料 的 方式 出 现 ， 现 在 也 

不 可 能 对 未 来 的 伟大 算法 说 些 什么 。 但 一 些 现存 的 活动 和 技术 有 很 清 

晰 的 湾 力 。 其 中 一 个 明显 趋势 是 人 工 关 能 在 日 常生 活 中 的 未 渐 使 用 

(特别 是 图 形 识 别 ) ， 如 果 有 任何 令 人 震惊 的 轿 新 算法 瑰宝 在 这 一 领 
域 出 现 ， 会 让 人 非常 着 迷 。 


另 一 个 洪 力 非凡 的 领域 是 一 类 名 为 “ 零 知 识 协议 ”(zero knowledge 
protocols) 的 算法 。 这 些 协议 使 用 一 种 特殊 的 加 密 方 法 ， 以 实现 一 些 
比 数 字符 名 更 令 人 惊讶 的 事情 ， 它们 能 让 两 个 或 更 多 实体 将 信息 组 织 
起 来 ， 而 不 用 显示 任何 单 块 信息 。 零 知识 协议 的 并 在 用 途 之 一 是 在 线 
拍卖 。 通 过 使 用 该 协议 ， 竞 哲 者 能 以 加 密 方式 同 彼 此 提交 各 目的 苋 
价 ， 从 而 判定 最 得 竞拍 的 人 ， 但 任何 其 他 竞价 的 信息 都 不 会 癌 任 何人 
展示 ! 如 果 零 知识 在 现实 中 运用 的 话 ， 这 样 一 个 聪明 的 想法 肯定 会 轻 
易 满 足 我 的 伟大 算法 行列 标准 。 但 目前 为 止 ， 它们 还 未 被 广泛 使 用 。 


男 一 种 获得 众多 学 术 人 研究 但 实际 应 用 有 限 的 思想 是 一 种 名 为 “分 布 
式 哈 希 表 ” (distributed hash table) 的 技术 。 这 些 表 是 一 种 在 点 对 点 系 


统 


一 个 没有 中 央 服 务 器 引导 信息 流 的 系统 一 一 存储 信息 的 精巧 
方法 。 然 而 ， 在 写作 本 书 时 ， 许 多 号 称 点 对 点 的 系统 实际 上 仍 在 一 些 


功能 上 使 用 中 央 处 理 融 ， 因 此 无 需 依 赖 分 布 式 哈 布 表 。 


“拜占庭 容错 ”(Byzantine fault tolerance) 技术 也 属于 这 一 类 : 这 
是 一 种 令 人 惊讶 但 美丽 的 算法 ， 不 过 仍然 不 能 算 作 伟大 ， 因 为 没什么 
人 人 采用。 和 拜占庭 容错 允许 特定 计算 机 系统 耐 受 任何 种 类 的 错误 (只 
同时 不 出 现 太 多 错误 ) 。 这 与 平常 的 容错 概念 一 一 系统 能 幸免 的 错误 
更 轻微 ， 如 磁盘 驱动 器 永久 失效 或 操作 系统 前 让 一 -相反 。 


伟大 算法 会 消 通 吗 ? 


除了 推测 什么 算法 会 在 未 来 步 入 伟大 行列 之 外 ， 我 们 也 许 还 会 
想 ， 目 前 的 “伟大 ”算法 中 一 一 我 们 想 都 不 想 经 常用 到 的 不 可 取代 的 工 
具 一 一 是 个 有 一 些 会 逐渐 形 失 其 重要 性 。 历 史 在 这 里 也 能 指引 我 们 。 
如 果 我 们 将 注意 力 限 制 在 特定 算法 上 ， 算 法 肯定 会 到 失重 要 性 。 最 明 
显 的 例子 在 密码 学 中 ;在 发 明 新 加 密 算 法 的 研究 人 员 和 发 明 破 解 这 些 
算法 安全 性 的 研究 人 员 之 间 ， 进 行 着 一 场 不 间断 的 军备 范 赛 。 作 为 一 
个 特例 ， 思 考 一 下 所 谓 的 加 密 哈 希 男 数 。 名 为 MD5 的 哈 硕 男 数 是 一 个 
官方 互联 网 标准 ， 目 20 世 纪 90 年 代 开 始 广 泛 使 用 ， 然 而 目 此 以 后 MD5 
的 重大 安全 缺陷 被 不 断 发 现 ， 人 们 不 再 推荐 使 用 MD5。 类 似 的 ， 我 们 


在 第 九 章 讨论 过 这 一 事实 : 如 果 搭 建 一 个 合理 体积 的 量子 计算 机 成 为 
可 能 ，RSA 数 字 签 名 机 制 将 轻易 被 攻破 。 


| 


然而 ， 我 认为 用 这 样 的 例子 来 回答 我 们 的 问题 太 片 面 。 的确， 
MD5 有 缺陷 (顺便 说 一 下 ， 其 主要 继承 者 SHA-1 也 是 ) ， 但 这 并 不 意 
味 着 加 密 哈 希 画 数 的 中 心思 想 就 无 关 紧 要 了 。 的 确 ， 这 类 哈 希 函数 运 
用 得 非常 广泛 ， 也 还 有 许多 未 被 破解 的 算法 。 因 此 ， 我 们 用 足够 宽广 
的 视角 看 待 这 一 情况 ， 并 准备 好 在 获取 算法 主要 思想 时 适应 算法 特 
例 ， 现 今 许 多 伟大 算法 似乎 不 大 可 能 在 未 来 丧失 其 重要 性 。 


我 们 学 到 了 什么 ? 


能 从 本 书展 示 的 伟大 算法 中 得 出 什么 通用 主题 吗 ? 其 中 一 个 主题 
征 ， 所 有 大 思想 都 能 在 不 需要 任何 计算 机 编程 或 其 他 计算 机 科学 知识 
的 情况 下 得 到 解释 。 作 为 本 书 作者 ， 我 感到 很 惊讶 。 当 我 开始 着 手 这 
本 书 时 ， 我 以 为 能 将 这 些 伟大 算法 分 成 两 类 。 第 一 类 是 一 些 核心 思想 
中 运用 了 位 单 但 聪明 的 把 戏 的 算法 一 一 这 些 把 戏 无 须 任 何 技术 性 知识 
忠 能 得 到 解释 。 第 二 类 算法 与 高 等 计算 机 科学 思想 联系 紧密 ， 不 能 癌 
没有 该 领域 背景 知识 的 读者 解释 。 我 原 计 划 通 过 讲 些 第 二 类 算法 (可 
能 ) 有 趣 的 历史 轶 事 来 涵盖 一 些 这 类 算法 ， 解 释 它 们 的 重要 应 用 ， 并 
言 之 羡 北 地 称 这 些 算法 非常 精巧 ， 即 便 我 不 能 解释 它们 如 何 运行 。 当 


我 发 现 目 己 选 择 的 所 有 算法 都 归属 为 第 一 类 时 ， 想 想 我 有 多 高 兴 、 多 
惊讶 ! 当然 ， 我 省 略 了 许多 重要 的 技术 细节 ， 但 在 每 个 例子 中 ， 让 整 
件 事 奏 效 的 天 键 机 制 可 以 通过 使 用 非 专 业 性 概念 解释 。 


本 书 所 有 算法 的 男 外 一 个 重要 的 通用 主题 是 ， 计 算 机 科学 领域 并 
不 仅仅 古 编 程 。 每 当 我 教授 一 门 入 门 计算 机 科学 课程 ， 我 都 会 要 求学 

告诉 我 ， 他 们 认为 计算 机 科学 究竟 是 什么 。 到 目前 为 止 ， 最 第 见 的 
回答 是 “编程 ”， 或 类 似 的 “软件 工程 ”。 当 我 继续 要 求 他 们 说 出 计算 机 
科学 的 其 他 方面 时 ， 许 多 学 生 被 难 住 。 但 接 下 来 回答 的 学 生 通常 会 说 
些 和 硬件 有 关 的 东西 ， 如 “硬件 设计 ”。 这 是 对 计算 机 科学 家 真正 从 事 
的 工作 的 一 种 流行 误解 的 强力 证 据 。 读 过 这 本 书后 ， 我 布 望 你 能 对 计 
算 机 科学 家 思考 的 问题 ， 他 们 提出 的 解决 方案 有 更 具体 的 了 解 。 


在 这 里 举 个 简单 类 比 会 很 有 帮助 。 假 设 你 遇 到 了 一 位 主要 癸 究 兴 
趣 是 日 本 文学 的 教授 。 极 有 可 能 这 位 教授 能 说 、 读 以 及 写 日 文 。 但 如 
果 你 被 要 求 猜测 这 位 教授 在 进行 研究 时 在 什么 上 花 了 最 多 时 间 进 行 思 
考 ， 你 不 会 猜 是 “日 本 语言 "。 尽 管 ， 日 本 语言 是 研究 组 成 日 本 文学 的 
主题 、 文 化 和 历史 的 必要 知识 。 男 一 方面 ， 说 一 口 完美 日 语 的 人 也 许 
完全 无 视 日 本 文学 (日 本 可 能 有 数 百 万 这 样 的 人 ) 。 


计算 机 编程 语言 和 计算 机 科学 主要 思想 之 则 的 关系 与 上 面 的 情况 
很 相似 。 要 应 用 并 实验 算法 ， 计 算 机 科学 研究 者 需要 将 算法 转换 成 计 
算 机 程序 ， 而 每 个 程序 都 由 Java、C++ 或 Python 等 编程 语言 编写 。 


此 ， 编 程 知识 是 计算 机 科学 家 所 必需 的 ， 但 却 只 是 前 提 : 在 见识 了 本 
书 中 的 伟大 算法 以 后 ， 我 布 望 读者 们 能 对 这 一 区 别 有 更 清楚 的 理解 。 


旅程 终点 


我 们 已 经 抵达 深奥 但 也 日 常 的 计算 世界 的 终点 。 我 们 实现 目 己 的 
目标 了 吗 ? 你 和 计算 设备 的 互动 会 因此 不 同 吗 ? 


下 次 当 你 访问 一 个 安全 网 站 时 ， 你 也 许 会 想 知 道 谁 为 其 可 信 度 担 
保 ， 并 检查 你 的 网 络 浏览 器 侦 测 到 的 数字 证 书 链 (第 九 章 ) 。 或 者 当 
你 下 次 遇 到 在 线 交 易 因 为 未 知 原因 失败 时 ， 你 会 深 深 感激 ， 而 不 是 困 
惑 ， 因 为 你 知道 数据 库 一 致 性 会 确保 你 不 会 为 订购 失败 的 东西 付费 
(第 八 章 ) 。 或 者 未 来 某 天 你 会 自 娱 自 乐 地 说 : “如 果 计 算 机 能 为 我 做 


这 件 事 该 多 好 啊 ” 一 一 但 你 知道 这 不 可 能 ， 因 为 使 用 在 有 骨 演 发 现 程 序 中 
用 到 的 相同 方法 ， 你 想 让 计算 机 做 的 任务 被 证 明 不 可 判定 (第 十 
章 ) 


我 肯定 你 能 想到 更 多 例子 ， 在 这 些 例子 中 ， 伟 大 算法 的 知识 也 许 
能 改变 你 与 计算 机 互动 的 方式 。 然 而 ， 正 如 我 在 前 言 中 仔细 说 明 的 ， 
这 并 非 本 书 的 主要 目的 。 我 的 主要 目的 是 让 读者 有 足够 多 和 伟大 算法 
有 关 的 知识 ， 主 他 们 在 一 些 日 音 计 算 任务 时 能 遐想 片刻 一 一 就 像 一 名 
业余 天 文学 家 高 度 案 敬 夜空 一 样 。 


只 有 你 一 一 我 的 读者 一 一 知道 我 是 否 成 功 地 实现 了 这 一 目标 。 但 
有 件 事 很 肯定 : 你 目 己 的 个 人 精灵 就 在 你 的 指 尖 。 请 自由 使 用 。 


你 这 条 我 走 着 的 ， 并 还 在 四 面 环顾 着 的 路 啊 ， 我 相信 你 不 知 
眼下 这 一 点 ， 我 相信 这 里 也 还 有 许多 看 不 见 的 东西 。 


沃尔特 : 惠 特 曼 ， 


《大 路 歌 》 (Song of the Open Road) (1 


致谢 


许多 朋友 、 同 事 和 家 人 阅读 了 部 分 或 所 有 草稿 。 他们 十 亚 历 元 斯 
贝 葡 、 威 尔 森 贝尔、 麦克 ' 巴 罗斯 、 沃 尔 特 :克基 米 亚 列 、 迈 元 尔 ' 艾 院 
德 、 阿 拉 斯 泰 尔 . 麦 考 密 殴 、 瑞 雯 . 麦 考 密 列 、 妮 可 茉 塔 :马里 尼 - 迈 欧 、 
弗 宇 殉 : 麦 克 谢 里 、 克 莉 斯 汀 : 米 切 尔 、 伊 莉 亚 : 米 罗 诺 夫 、 温 迪 : 波 拉 
区 、 朱 迪 斯 ' 波 特 、 科 顿 ' 西 勒 、 海 伦 塔 卡 克 斯 、 库 纳 尔 ' 塔 尔 瓦 、 蒂 姆 ; 
瓦尔 斯 、 乔 纳 森 : 瓦 勒 、 马 迪 : 维 德 和 奥 利 :威廉 姆 斯 。 这 些 读者 的 建议 
极 大 地 提升 了 书稿 的 质量 。 两 位 匿名 审阅 者 的 评论 也 让 书稿 得 到 了 很 
大 提升 。 


克 里 斯 : 毕 晓 普 给 予 了 我 鼓励 和 建议 。 淘 姆 . 米 切 尔 给 予 了 我 在 第 六 
革 使 用 他 的 图 片 和 源 代码 的 授权 。 


在 孵化 本 项 目 并 让 它 开 花 结 有 末 上 ， 本 书 编辑 维 琪 : 殉 恩 和 她 在 普 林 
斯 顿 大 学 出 版 社 的 同事 居 功 至 伟 。 


我 在 迪 金 森 学 院 数学 与 计算 机 科学 部 门 的 同事 对 本 书 子 以 了 持久 
文 持 和 帮助 。 


我 的 妻子 元 莉 斯 订 一 直 在 文 持 我 。 


我 向 以 上 所 有 人 致 以 最 深 的 谢意 。 本 书 并 我 的 爱 献 给 克 莉 斯 汀 。 


[1] 选 
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赵 葛 落 译 才 


No。 


